行业资讯 > 最新资讯 > 产业趋势

2015年十大突破性技术之 DNA互联网

诺亚是一名六岁儿童,正经受着一种不知名疾病的折磨。今年,他的医生将开始把他的基因信息发送到互联网上,看看世界上任何地方是否有人与他患有相似疾病。


基因匹配可能会有不一样的效果。诺亚是一名发育迟缓儿童,需要使用助行器帮助行走,且只会说几个单词。磁共振成像(MRIs)显示他的小脑正在萎缩。东安大略儿童医院的医疗遗传学家对他的DNA进行分析。在某些位置,数百万的As、Gs、Cs 和 Ts被拼错,这可能是治疗的线索。但是,在他们找到另一个具有相同症状的儿童及相似的DNA错误前,他的医生无法确定诺亚基因中的那个错误是关键性的。


在一月,多伦多的程序员开始测试一种系统,利用这种系统可与其他医院交换基因信息。包括迈阿密、巴尔的摩和英国剑桥在内的这些地点的设施,也可治疗所谓的儿童孟德尔氏疾病,这种疾病是由单个基因中的一种罕见基因突变引起。这种系统,又名为媒人交换,代表一种新鲜的事物:一种自动比对世界各地病人DNA的方法。


大卫豪斯勒为该项目的背后人之一,他是圣克鲁兹加利福尼亚大学的一名生物信息学专家。目前,豪斯勒正努力解决的一个问题是,基因测序在很大程度上与我们最伟大的信息分享工具脱离:互联网。这非常不幸,因为超过20万人已经获得了他们的基因组序列。医学的新世纪主要依赖于这些基因的大规模比对,而豪斯勒认为,科学家们还未对执行这一任务做好充分准备。“我可以在世界各地使用我的信用卡,但是生物医学数据还未进入互联网,”他这样说道。“生物医学数据都不完整,且被锁定住。”基因组不仅经常在硬盘驱动器内四处运动,而且还经常被联邦快递的卡车运输。


豪斯勒是全球基因组学与健康联盟的创始人及技术领导者之一,这个联盟于2013年成立,是一个非赢利性组织,该联盟自比为万维网联盟,该组织致力于确保该网络正常运行。该组织还以其不实用的首字母缩略词GA4GH为人所知,这个组织已经拥有大量成员,包括像谷歌这样的大科技公司。截止目前,其产品包括协议、应用程序编程接口(APIs)和改进的文档格式,以便将DNA传播至全网络。


但是,该组织目前正在处理的真正问题多半为非技术性。相反地,这些问题是社会学方面的:科学家们不愿意分享基因数据,且由于隐私规则,将人们的基因组上传至网络被认为具有法律风险。但是,立即利用技术研究更多的基因组,及开始将基因信息与医疗记录对比的压力不断增加。这是因为,科学家们认为,他们将需要整理一百万个基因组或更多以解决像诺亚这样的案例——这可能包含一串异常的DNA字符,或发现涉及复杂基因组合的常见疾病的基因学。目前,任何一家学术中心都未获得大量信息,或金钱手段以便进行基因组序列拼序。


豪斯勒与全球基因组学与健康联盟的其他人员正在打赌,解决方法的一部分在于一种对等的计算机网络,这种网络可广泛组合分散的数据。比如,他们的标准将允许研究人员向其他医院发送调查问卷,这些医院可选择他们乐意分享的信息的水平及与之分享的人员。这种对照标准可减轻隐私方面的担忧。增加一种新的复杂性,应用程序编程接口仍可访问数据库进行计算——也就是说,再分析他们储存的基因组——及返回结果。


我见到豪斯勒的那天,他穿的是一件褪色的夏威夷式衬衫,正在圣地亚哥参加一场聚会,他坐在酒店游泳池旁的草坪上。我们都在那参加一场全世界最大的遗传学者年度聚会。他告诉我,他很担心,基因组学正在渐渐偏离这种开放的方法,这种方法已经使得基因组计划如此强大。


如果可更加广泛的利用人们的DNA数据,豪斯勒希望,医学可从同样的“互联网影响”(已经推动多个网络商业方面)中获益。


另一种结果是,这种至关重要的信息将会像美国的医院记录系统(没有记录系统可共享信息)的灾难性混乱一样,陷入孤立无援困境。


支持快速行动的一个理由是,基因组数据正在爆炸式增长。目前,最大的实验室能够以每两个小时测定一个人类基因组的速度,精确测序。(第一个基因组的测序花费了13年的时间。)保守计算显示,今年,全世界的DNA快速测序机器将能够生成85千万亿字节的数据,2019年可生成的数据为今年的两倍,等等。为了进行比较,网飞公司制作的电影的所有原版拷贝占2.6千万亿存储字节。


“这是一个技术问题,” Curoverse公司的首席执行官亚当·贝里如是说, 这是一家位于波士顿的新创办公司,该公司目前正利用全球基因组学与健康联盟的标准为医院研发开源软件。“你拥有一件将成为全世界若干艾字节数据的东西,且所有人都不能移动它。那么你怎样同时一起查询?答案是,无需四处移动数据,你只需移动问题。没有行业这样做。这是一个不切实际的难题,但是它可能对人的生命至关重要”


现今,科学家主要忙于一个项目,这个项目是关于记录每个人类基因中的每个变化及确定这些差异的影响。个体生命中300万个DNA的位置或每1000个基因字母中每个字母都不同。这些差异中的多数并不重要,但其余的差异却可解释许多重要的事情:令人痛苦的疾病,像诺亚的疾病,比如,或比常人患青光眼的几率更高。


所以,想象一下,在不远的未来,你不幸患了癌症。医生可在你的肿瘤上排序进行DNA测试,获知每个肿瘤都是由特定变异引起的。如果医生可以查看其他人(具有与你相同肿瘤的特殊突变)的经验,及这些人员服用的药物和他们存活的时间,医生可能就会知道怎样治疗你。


虽然已经收集了许多救命信息,但却无法利用这些信息,这是基因组学即将面临的灾难。“限制因素并非技术,” 大卫·沙伊维茨如是说,他是DNAnexus的首席医疗官,DNAnexus是一家生物信息学公司,这家公司主办了几次大型的基因数据收集。“主要看人们是否愿意。”


去年,豪斯勒的联盟启动了一种DNA基础搜素引擎,这种引擎名为Beacon。目前,Beacon搜索先前向公开的约20个人类基因组数据库,且这些数据库已经实施了全球基因组学与健康联盟的协议。Beacon对一种类型的问题只提供是-或-不是的答案。比如,你可以问,“你的任何一个基因组在染色体1的1,520,301位置上是否有一个T?”“这真的就是这种搜素引擎中最基本的问题:你见过这种变异体吗?” 豪斯勒说道。“因为如果你确实看见了一些新东西,你可能会想知道,这是全世界第一个拥有这种变异体的病人吗?” Beacon已经能够存储成千上万个人的DNA,包括谷歌上传至网络的数百个基因组。


大卫·阿特舒勒是基因组学与健康联盟的共同创办人之一,现在他是福泰制药公司技术部的负责人,先前他一直是哈佛-麻省理工的博德研究所的副所长,直到最近才离职,博德研究所是美国最大的学术性DNA-测序中心之一。我到阿特舒勒的博德研究所办公室拜访他的当天,他的白板被显示的是家族基因遗传的图表及大蓝字符书写的“纳普斯特(Napster)”一词——1990年代具有公开破坏性的音乐共享服务。


对于想要连接大量数据的想法,阿特舒勒有他自己的原因。作为一名学术性研究员,他过去曾查找像糖尿病这种常见疾病的基因原因。通过对比患有这种疾病与未患这种疾病的人员的DNA来开展这项工作,试图找出最经常出现的差异。在利用这种方法开展工作,花费完大量科研补助金后,遗传学家意识到,不存在简单的答案、常见的“糖尿病基因”或“抑郁基因。”


研究结果是,常见疾病并不是由单个、确凿证据缺陷引起的。相反地,科学家认识到,一个人的患病风险,如果不是由DNA编码中的数以万计,也是由数百个罕见突变共同决定的。


那已经为数据统计创造了一个巨大的麻烦。去年七月,在一份列出300个作者的报告中,博德研究所的研究人员查看了36,989名精神分裂症患者的基因。虽然基因分裂症具有较高的遗传性,科学家鉴别的108个基因区域只解释了个人患病风险的一小部分。


阿特舒勒认为,大型基因研究仍是破解这些疾病的一个好方法,但是他认为可能需要数百万的基因组来破解这些疾病。


无论研究人员是否正在尝试揭开常见疾病或极罕见疾病的原因,数学计算方法、共享数据的方法不再是看上去具有可选性。“搞科研的方式将发生巨大变化,且这只是因为信噪比使得这种变化成为必然,” 亚瑟·托加如是说道,他是一名研究人员,带领一个联盟在南加利福尼亚大学研究阿兹海默症的科学。“你无法从10000名病人身上得出结论-你需要更多病人。现在,科学家们将共享信息,因为他们不得不。”


当然,隐私是分享的一个障碍。人们的DNA数据受到保护,因为DNA数据可确定本人,像指纹,而且,他们的医疗记录也是隐私。有些国家不允许病人的私人信息被输出用以研究。但是阿特舒勒认为对等网络可避免一些担忧,因为数据不会移动,且可控制数据的使用。


半数以上的欧洲人和美国人表示,他们可欣然认可分享自己的基因组的想法,且一些研究人员认为患者同意书应该是动态的,有点像脸谱网上的隐私控制,可使个人决定他们想要分享的信息及与之分享的人-于是改变他们的想法。


“我们的成员想成为做决定的人,但是他们却不是那么担心隐私问题。他们是病人,” 莎伦·特利如是说道,他是基因联盟的负责人,基因联盟是一个患者倡导组织。


未获得数据共享权利的风险,是基因组革命可能无法继续。一些研究人员说道,他们看到了基因组革命已经发生的迹象。凯姆·博伊科特带领他的基因小组测定了诺亚的基因组序列,他表示,当该小组于2010年采用测序作为研究工具时,这项研究立即取得成功。


在过去的2011至2013这两年内,一个加拿大遗传学者网络揭开了146种病情的精确分子原因,这解决了他们55%的未确诊病例。


但是成功率似乎在变小,博伊科特说道。目前,留下的是像诺亚的病例一样更困难的病例,且这些病例的处理连其他病例的一般都不到。 “我们不再具有两个带有相同基因变异的病人。这就是我们需要交换的原因,”她这样说道。“我们需要更多的病人,及系统的信息分享以把成功率提升上去。”


一月底,当我问到媒人交换是否已经产生了任何匹配,她提出异议,说道,在软件可充分运行前,这可能是数周的问题。对于诺亚,她说道,“我们仍在等待把他治愈。对于这个小家伙,这非常重要。”


相关阅读:

Nature子刊:仅根据DNA序列即可确定表观基因组情况

基因产业新方向:建立新生儿DNA库,从源头“打拐”

Cell子刊:病毒DNA在人类基因组中有大作用

遗传学家开始通过互联网进行在线DNA测试




热门排行

推荐阅读