国家基因库主任：我们不是从垃圾桶里捡来的，是3D打印出来的｜造就讲者徐讯

源济 · 发表于 2019-1-17 05:04 PM

徐讯华大基因研究院院长

国家基因库主任：我们不是从垃圾桶里捡来的，是3D打印出来的

造就 TALK · 2019-01-15

徐讯

华大基因研究院院长

国家基因库执行主任

可能大家都知道基因是一个生命的源代码，我们可能很小的时候就就问我们的父母，我们到底从哪里来？

当然，我们很久之后才知道我们不是从垃圾箱捡来的，我们是人体的3D打印机打印出来的。

那我一直在问，这个3D打印机怎么知道哪里是我的眼睛哪里是我的鼻子呢？实际上3D打印机的背后是生命的源代码，我们从父母双方继承来的遗传物质。

父母精子和卵子的结合，最关键过程实际上是遗传物质的交换、重组形成了新的生命。每个人的源代码都是不一样，这就解释为什么我们每个人都是特一的，都是唯一的。

不仅仅我们人与人之间的源代码不一样，我们和我们周围所有生命世界，都是由源代码控制的，而且这些源代码都不一样，正是这种不一样才塑造出我们多姿多彩的世界。

当然我们今天听到林老师的分享，这样的不一样，造成了玫瑰的多姿多彩，玫瑰是美的。但是我们也听到大苗的演讲，我们在这世界上还有这样一群因为出生遗传缺陷而导致的各种障碍。

实际上源代码的各种变化有很多，它们会造成错误。我们知道，地中海贫血症在中国的南方两广地区人群中错误的携带率高达1/9，九个人里面有一个人携带了这样的错误。

而这样的这样错误导致了红细胞的携氧能力不足，最终导致了这些小孩没有办法像正常小孩一样活泼健康地成长。这样的变化同时也会引起更严重的疾病，比如说癌症。

中国现在一年新发的癌症超过了400万，而这样的癌症变化是怎么来的？癌症的变化实际上是源代码出错最后导致失控。

比如说，这里举一个例子，P53，这是一个很简单的基因，这个基因一小段序列的缺失最终导致了整个癌症通路的激活，最终导致了癌症的发生，所以这种错误实际上是非常可怕的。

所以我们就想，既然这个代码很重要，我们一定要把这个代码解读出来，从而能够掌握这样的代码，所以我们就要做一件事情，就是要把这个代码测出来，我们叫做测序。测序怎么测呢？实际上基因的源代码只有4个字符——ATCG。

就像计算机里面用的0、1这样的字符来代替所有的信息一样，ATCG长串序列的组合造成了所有源代码的基本组成。这个ATCG源代码存在于什么样的物质上呢？存在于一种我们称之为DNA的物质上，这可能是目前是世界上最有效的存储体系。

0.000,000,000,001,5克的DNA里含有30亿碱基的信息，包含了我们一生生老病死的压力。如果用1克DNA来计算的话，信息量可以达到ZB级别，这可以把目前沉淀下来的所有互联网数据都装进去还足够。

所以这是一个非常有效的存储体系，它字符间的间距只有0.34纳米，远远强于我们目前半导体工业10纳米的水平。所以这是个非常复杂的体系，我们想去解读它是一个艰巨的工程。

所以我们在解读第一个人类基因组的时候用了13年，有6个国家的200多位科学家花了30亿美金才完成。当然随着技术进步，我们已经可以非常容易和快捷的把基因组测出来。现在所有人都可以非常简单的拥有自己的基因组，那这是怎么做到的呢？

首先，我们的DNA在细胞核里面，我们把DNA从中体取出来。但是DNA非常长，将近有上亿个碱基的序列。

所以我们为了简化工作，必须把它打断成一段一段的小碎片，这样可以大大简化我们的工作。然后我们再把它形成这样的一个结构，通过这个结构把DNA复制上千遍。

复制的目的是为了放大信号，这样信号就可以放大一千倍，读取起来就会更容易。这样上千倍的DNA可以相互缠绕，形成一个纳米球，它可以放到测序芯片上进行测序。

而测序的时候我们把四种碱基ATCG分别标成不同的颜色，A标成红色，C标成黄色，T标成橙色，G标成绿色。这样我们就可以按顺序把碱基的序列读出来。

我刚刚提到，这是一个很小的片段，我们把上亿个片段组装成人们的基因组。

可以「读」以后，我们还能「写」基因吗？

正是因为我们可以读，所以我们现在非常想写。写这个事情我们人类一直在做，试图扮演上帝的角色。从人类有农业开始，就一直在做改写源代码、改写基因组的工作。

我们在实验室里有更高效的方式，从外源导入基因，比如将水母荧光蛋白转入到小鼠体内做一些功能试验，最近非常热门的是基因编辑，它可以非常精准的对几个碱基进行修改。

所以刚刚提到的一小个字符的错误，一小段序列的缺失，也许未来我们可以通过这种更精准的基因治疗方法来治疗疾病。为什么基因编辑这么热？就是因为它带来了治愈疾病的新的希望。

当然，掌握了这些编码的规则之后，人类最想做的还是真正创造自己的生命，从头开始写自己的代码。

合成生物学就是从头写人工代码的这样一项工作，我们已经成功完成了细菌源和生物的编码撰写，最近我们在做的是人工酵母的基因组撰写。可以想见，随着我们读和写能力的提升，我们改造命运、改造规则的能力会越来越强。有了这些技术，我们在想怎样让这些技术造福人类。

2008年，华大收到了一封长长的血书。这封血书是一位鱼鳞病患者的妈妈咬破手指写的，这位妈妈本身也是位鱼鳞病患者。她一生中遭受过许多痛苦、孤独和不幸。

但当她生下自己的小生命时，发现女儿遗传了自己的疾病基因。这位母亲非常痛苦，陷入深深的自责。这样的故事在中国各个地方到处都在发生，但这本是可以避免的。

中国的出生缺陷比例是5.6%，也就是每20个新生儿里面可能就有这样那样的残疾，很多家庭都是因为这样因病致贫。这个事情从本源上来说就是基因出错，从目前技术来说是完全可以解决的。

所以我们想用这个帮助每个家庭都能生出健康的宝宝，所以我们启动了「千万家庭远离遗传出生缺陷」计划，用技术试图改变这样的现状，把中国的出生缺陷降下来。

通过我们的努力，目前已经对600多种疾病进行了筛查，完成了150万例孕妇的筛查，帮助了8000个家庭避免了出身缺陷的不幸。

同样作为基因组的疾病，癌症也可以通过基因组技术来进行改变，摆脱规则的束缚。

这三位美丽的女明星，梅艳芳、陈晓旭、姚贝娜，她们都是因为癌症离世，而这些本都可以通过技术的力量去改变的。

而安吉丽娜朱莉，她通过基因检测发现自己携带了BRCA1基因突变，而这诱发乳腺癌的风险高达87%，所以她毅然决定进行了双侧乳腺的切除，从而避免了罹患乳腺癌的不幸。这样一个技术完全是可以推广到所有人可以使用的。如果身患癌症，因为这是基因代码出现了错误，所以也是可以改变的。当你找到代码树到底是哪段出错后，可以选择精准的靶向用药，从而能够赢得生机。

当然，最好的还是在癌症还没有出现或者是在早期的时候，将其扼杀在摇篮。所以我对游离DNA检测的技术非常热衷，这可能最终帮助人们消灭癌症，或者把癌症当作感冒一样去治疗。

什么意思呢？大家都知道，怀胎需要十月，癌症从最早一个细胞的突变，到变成癌症组织，它也需要漫长的时间，少则五六年，多则十几年。但当它长成影像学可以观测到的时候，已经到了中晚期。

如果我们能够在早期，甚至只有几个细胞的时候，像我们做新生儿筛查，在怀孕第十周时就能检测到体内的变化，那么癌症的治疗应该不是难事。

这样的事情其实是可以做到的，和新生儿细胞一样，癌细胞是会快速增长的细胞，它会把自己代谢产生的游离DNA释放到血液中，循环系统搜集全身的废物，最后在血液里汇集。

所以我们可以测定血液里含量极低的突变，来进行早起的检测和干预，从而预防癌症。所以我觉得，这是技术带来的突破。虽然这个技术还在早期，但我越来越看到它给治疗癌症带来的希望。

共享数据，造福全人类

我们到目前已经掌握的知识，已经彻底改变了对疾病的认识。我们现在虽然能读出基因组所有的序列，但真正能够去解释的含义不超过1%。有99%的区域，我们称之为基因组上的暗物质。

我们知道这些暗物质区域有它的功能，但它们到底怎样影响我们的生命形式，我们还不知道。所以我们在做的事情就是希望突破人类对基因的局限，真正掌握自己的命运，读懂基因组的每一个字符，但这个工作量非常大。

比如让人工智能去研究一个苹果，它要去看一千个、一万个苹果；同样，你要研究一本生命之书的变化，你要演讲上千上万，甚至百万级别的变化。

我们做了一个计算：如果想得到1%新的基因组认知，至少需要ZB级别的数据量，基本上看起来是不可为。所以为了产生足够的数据量，我们必须有足够便宜、足够高通量、足够快速的平台和工具。

说到通量最大，华大基因5年前就号称全球最大的基因组中心，我们买了128台进口测序仪。我们从中得到了巨大的科学发现，也获得了巨大的产业突破。

但我们也遇到了瓶颈：因为最大，所以被高度关注，在技术上、仪器维修上、价格上受到各种围追堵截。我们深刻体会到，没有自主知识产权所导致的快速发展瓶颈。

4年前到今天，我们花费40亿做了一件事，做真正自己的国产测序仪。这件事，我们在去年年底的时候做成了，大家可以看到，我们在做第一个人类基因组测序的时候花了30亿美金，做第一个中国人基因组时花了100万美金。测一个基因组还需1万美金。

当我们发布第一台自主测序仪时，价格降到了1000美金。但这还远远不是我们的终极目标和追求。我们希望价格可以更低，低到什么程度？几百美金，甚至几百人民币。

正是因为我们有了自主的平台，所以我们拥有了最大的数据。到目前为止，我们测定了1000万份不同的样本，产生出超过20PB的数据，美国前副总统戈尔在他一本叫《未来》的书中做了统计，认为华大基因产出了全世界50%以上的基因组数据。

我们对全球农业基因数据的贡献也超过了70%。按照传统的商业逻辑，我们好像应该把这些数据像宝贝一样藏在角落里，自己去挖掘。但实际上，我们没有这么做。因为只依靠我们自身的能力，是不可能解读出人类的天书的。

所以我们做了一件事，把已经产生的数据、即将要产生的数据、人类未来所有的数据都放到一个共享的平台，我们建了一个全球最大的基因共享平台，叫做中国国家基因库。

这个库在今年9月22日将正式对外开放。我们建这个平台的目的，就是为了汇聚全世界的科学家和全球所有聪明头脑的力量，共同解读人类基因组这本天书。

我们觉得，虽然道路还很曲折，但是想要真正能够掌握自身的规则，掌握人类自身的生命密码，100%的理解基因组里每一个字符的含义，这一天的到来是可以预估的。

到了那一天，我们也许就能实现人类的终极追求；到了那一天，也许我们就可以让基因科技真正造福人类；到了那一天，也许我们有希望治愈所有的疾病；到了那一天，我们可以期待所有人都可以健康的活到120岁。

因为除了人类的基因之外，我们也掌握了所有基因的天书。

我们也有可能解决农业的问题，真正解决饥荒的问题。我们也能够和自然和谐共处，建设未来城市。

所以我们在做的事情绝不仅仅是一群科学家对生命本源的热爱，而且我们在做的可能也是全人类最大的公益事业。

人类从来没有停止过对自身本源的探索，也从来没有放弃过对生命的追求。

从古代帝王道士炼丹，到达芬奇的密码，其实大家一直都是在这路上探索着。

我们一直在做的就是这样一件事——探索生命本源的密码，真正帮助人类摆脱生老病死的自然规律，最终把人类自己的命运掌握在手中！

源济 · 发表于 2019-1-17 05:04 PM

		自动登录	找回密码
密码			注册

[百家杂谈] 国家基因库主任：我们不是从垃圾桶里捡来的，是3D打印出来的｜造就讲者 徐讯

可以「读」以后，我们还能「写」基因吗？

共享数据，造福全人类

[百家杂谈] 国家基因库主任：我们不是从垃圾桶里捡来的，是3D打印出来的｜造就讲者徐讯