当基因科学遇上互联网+
大数据、人工智能以及深度学习等技术趋势正在带领互联网向更加智能的未知世界探索。 
2015-3-26 9:51:26
0
E药脸谱

本文转载自环球企业家

生命是数字化的,生命的信息可以被储存、克隆、改写,人类可以通过修改“生命程序”治愈肿 瘤甚至返老还童。人类是否可以拥有一个预测未来健康的水晶球?答案也是肯定的。这并不是天方夜谭,以基因测序为代表的生命科学正在飞速发展,当以“碳基” 为基础的基因科学与以“硅基”为基础的IT技术结合,破译“生命的公式”正在变成可能。大数据、人工智能以及深度学习等技术趋势正在带领互联网向更加智能的未知世界探索,而对人类基因数据的研究和分析,也在利用这些新兴的技术和手段,让人类对自身有更理性的认知,让自己变得更健康。这就是华大基因CEO王俊在3月22日深圳IT峰会上分享的内容。

以下是王俊的演讲实录。

当我们讲数字化、计算机,IT的时候,习惯于以硅为体系。但是在讲到生命的时候是以碳为体系。生命的基础是碳,生命是数字化的。为什么说生命是数字化的?它能够储存?能够编程吗?能够改变程序实现不同的生命形式吗?可以克隆吗?这当然是可行的。

为什么可以从一只羊身上提取一个细胞克隆成另一只羊?因为那只羊的细胞储存了羊的所有“生命程序”。DNA可以储存多少年呢?至少可以上百万年。现在没有任何一种存储介质可以把信息储存上百万年时间。它能够计算吗?当然可以,计算和编程的基本单位就是基因。我们每个人身上都有一套蕴藏着所有生命信息的基本程序,这套基本程序就是生命的语言。它的语言怎么形成的呢?在最开始的时候,就像每个程序员写出一个功能模块,然后希望所有人都用这个功能模块,在生命体里形成一些基因、一些蛋白质、一些小分子,基因、蛋白质、小分子不断扩张自己,在不断扩张自己同时,整个过程不断复制、不断扩张、不断延展,有时候一个基因不够用,可以和其他基因一起合作,两个基因、三个基因一起合作,当一堆基因合作更好的时候,就形成个体。

人身上有2万—3万个基因,不同物种有不同基因,比如酵母菌有4000个基因,所有不同基因组合形成不同的生命程序,而不同的生命程序与周围环境适应就形成了个体。每一套程序代表着不同的生存策略,这套不同的生存策略就是针对于不同环境体系而来。而检测这套程序好不好用的唯一标准就是它能不能活下去,能否传播更多后代。当个体选择了可以活下去并传播更多后代的这套程序就叫做可以适应于环境的生命语言。达尔文进化学说、适者生存理论都是在这个基础上建立。

每个人的生命程序是不同的。藏族人可以适应高原而生活在平原的我们不行,这是因为我们身体中的程序没有写进适应高原的基因。在汉族人体系里只有5%的人有这个基因,而藏族人达到95%。导致这种差异的原因不仅仅是复杂极端的环境,还与饮食相关,比如南方傣族人因为祖先经常吃槟榔,所以体内基因很多跟槟榔适应。

个体水平为什么会变化?为什么藏族人跟汉族人不一样?在这些表象的背后有很多有意思的东西。比如它的变化来源是什么?当一个精子一个卵子结合的时候,基因发生了重组。每一代当中,孩子和父母之间有100个基因突变,这些改变形成了不同的生存策略。环境时时刻刻变化、基因也在时时刻刻变化,而基因组可以作为预测程序。人类的基因是由于祖先上千年、上万年不断学习、进化,对后来有可能遇到的环境做出的预测。你体内的基因不会告诉你能否去高原,但一定会告诉你去过高原会有什么反应。

如果每个人生下来就有一个盒子,这个盒子可以清楚告诉你往哪去会发生什么样的影响,这个盒子会如何指导我们生活呢?首先,如果这个盒子可以告诉我能活多少岁。比如遵循基因告诉你的事情,你可以活到150岁,但是为什么活不到150岁?因为你会得各种各样的病,这些病从年轻的时候一直到年老都有关系,而这些病跟基因,或者跟环境、跟数字化、跟IT、BT有什么关系呢?

基因中的问题有点像写程序的时候出了一个“bug”,基因这套程序不能正常运行,人体就会出现很严重的问题。比如各种各样罕见疾病。中国有大于5.6%的孩子有各种各样的出生缺陷。生命这套程序在不断试代码,试代码过程中不断试错,但每一个错误并不代表新的往前演化的可能。面对这种情况我们该怎么办?能否可以通过基因检测程序,在孩子出身之前,做一些检测,早点发现早点控制,当然可以。如果这样的话,谈恋爱结婚之前不要配八字,可以先配一下基因,看生命基因程序是不是匹配。

预测是一方面,但如果出现这些问题,可不可以治疗呢?我们又有一个非常疯狂的想法,能不能通过大数据挖掘发现一些罕见病的解决方案呢?答案也是可以的。

华大基因有一个计划,搜集100万人的基因数据,寻找那些单纯从基因来说应该患有某种基因疾病,但是非常健康的人,我们称呼他们“超级英雄”,这些人体内有非常明确的致病基因,但是却非常健康,这是为什么?因为他们体内有另外一套基因在保护他。就像程序中的一段出现了“bug”,但是另外一段修复了,整个程序依然非常健康。如果能够找出那一段是什么,也许就可以找出罕见性疾病的药物。这就是基因测序的意义。

接下来是肿瘤。很多人面对肿瘤威胁,从基因科学角度,肿瘤是生存过程中人体受环境因素影响导致的基因程序变异。人所有的细胞都来源于第一个细胞——受精卵细胞,从那个细胞开始不断复制、成长都会引发程序变化。不同环境影响会导致程序非常大不同,比如抽烟增加肺部细胞变异率。用简单的IT方式来讲,就是你生命程序中的那段代码被黑客给黑了。被黑的概率会随着环境因素不同而变化。如果经常抽烟,如果经常生活在不好的环境里,或者受到各种各样病毒感染,程序被黑的概率非常之高。有人会说我身体有上亿个细胞,一个细胞被黑也许没有关系,但是如果一个细胞被黑,它很有可能获得比其他细胞更强的适应性,它可以不断扩张。从一个肿瘤细胞发展到最后可以用CT扫描检查出来,平均要15年。也就是说15年体内有肿瘤细胞你都不知道。我们能不能早点发现它,答案是可以的,因为所有细胞最终都要游离到血液里,我们通过非常深度的基因检测可以看到体内有没有肿瘤细胞。

这也是预测,但如果得了肿瘤怎么办?每一个人的肿瘤的基因都不一样,你需要做的是对所有细胞做基因检测,而不是简单的手术、放疗、化疗。这样的治疗有可能在未来两三年内飞速发展,而所有努力都是为了增加肿瘤患者的生存概率。

还有慢性疾病、感染性疾病,其实万物都跟基因有关系。只有小于1%的微生物可以被培养,所以根本没有办法搞明白到底什么让你发烧、什么让你腹泻,但可以把DNA提取出来,一个小时内就知道到底怎么会感染。而早一点这样做,就可以早一点摆脱疾病风险。

华大基因要完成这个生命公式,在这个公式的一边是自己的基因、环境因素的基因,各种各样的东西,而另一边是表现的状况,比如身高、体重、各种各样的病理特征、健康与否。中间这个公式怎么写呢?这个时候就要涉及到百度首席科学家吴恩达的研究范畴了。

现在我们只知道这个程式的输入端和输出端,但中间怎么编程,毫无所知。该怎么办呢?这就需要大数据。健康大数据取决于把所有输入端、输出端全部计算清楚,如果研究清楚身高基因的关系,需要100万人。要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要100万人。你需要把100万人的各种各样信息全部搜集,才能得到“生命公式”。

用什么方法?这种方法贵不贵?这种方法非常昂贵。1999年中国华大基因参与了1%人类基因组计划。当时测序需要10亿美金。最近已经降成1万美金一人,但要搜集100万人的数据仍然很贵,现在可以做到1000美金,明年500美金就可以测定一个人的完整基因。但什么时候可以免费呢?基因测序免费这一天的到来事实上取决于基因本身的数据价值远远大于产生他的数据所需要的成本。对于华大来讲这个趋势在2019年左右,5年左右时间我们可以真正达到这样的结果。除了这种基因数据之外,我们知道现在比较时髦的词比如物联网可以收集各种各样输入输出数据,比如智能厕所,当在厕所方便时,所有代谢物、蛋白质数据等等都收集起来;比如躺在床上,各种各样的体征数据都收集完成后,再通过互联网将不同的人的数据相连,就将形成一个基因组网络。

为什么基因组网络那么重要?根据基因研究发现,所有男人12万年前来源于一个男人,所有女人12万年前也来源一个女人,有人说这就是亚当和夏娃。中国70%汉族人追溯到6000年前就三个人,如果把每个人的基因数据连起来,形成基因组网络,将是不可估量的。

我们讲互联网,超级计算机,这些正在成为不可估量的机会。每个人在上面产生数据和支持,基因组也是一样的。人类基因组计划就是把基因和病之间的关系搞清楚,并在上面寻找各种各样的机会,这些机会、信息和知识是以前一个个人的基因组不可想象的。而要实现这些同样需要人工智能,深度学习,因为如此庞大的数据量已经不是一个单一的模型能够解决的。

奥巴马提出一个精准医疗计划,就是要做100万人基因组库,当所有人完成后,我们会有一个水晶球,预测你未来健康的走向,而这样的预测很有可能再做一些改变,我们听过3D打印、细胞存储、基因编辑,我们听过合成生物学,喝的啤酒的酵母将不是自然界酵母,而是计算机写出来的,酵母产生的啤酒味道也许比你现在喝的任何啤酒味道都要好。还有,生命信息的存储——干细胞,干细胞什么意思?就是年轻时候的生命信息。当你年老的时候能不能把年轻时候的信息再写进程序,也许就年轻了。所有像科学幻想的东西都在生命科学界以飞速方式往前走。如果真正基于一个所谓人工智能方式、大数据处理方式,能管理健康、掌握预测的程序和健康的关系,这就是基因科技的魅力。

当我们定义一个生命的时候,其实我们并不清楚,如果未来当计算机赋予它更多生命逻辑,它会变成一个生命体吗?如果计算机大脑已经可以跟人脑匹配,它有生命性吗?当我们拥有改变人类基因能力的时候,我们该怎样控制这种能力?所有这些值得大家思考。

互联网是硅基维度而生命科学是碳基维度,作为另外一个纬度的IT人,我希望给大家带来的不仅仅是对生命的认知,而且是对生命认知最佳的理性选择。

E药脸谱网
分享:
您可能感兴趣的文章
最新评论
精彩评论
暂无评论
提交
查询好友:
注:选择好友后只会分享给指定好友,不选择则分享到本站。