碳云智能王俊:我们要准备好,迎接甚至创造生命科学大数据时代的到来

2017年4月2日,“2017中国(深圳)IT领袖峰会”在深圳举行,本次峰会由深圳市人民政府、数字中国联合会主办,亿欧作为支持媒体受邀参加。

在下午的主题为“颠覆性技术与人类未来”论坛中,碳云智能创始人兼 CEO 王俊与鑫根资本合伙人曾强,斯坦福大学物理系讲座教授、美国国家科学院院士张首晟,超多维科董事长戈张,康得新复合材料董事长钟玉参与了该场高端对话。

王俊介绍,这是他第三次参加IT领袖峰会。2015年年中,王俊离开华大基因创立了碳云智能,曾在2015年与其一同做主题演讲的吴恩达也在2017年3月22日从百度离职,联想到许勤书记在大会前一天从深圳调往河北,王俊打趣道,“峰会充满了变数。”

在发言中,王俊强调,不是说生命可以数字化,而是生命本身就是数字化的。王俊说,“生命本身就是程序在运行,运行中不同的迭代有不同的结果,只不过运行的方式和原理不被我们知道,我们还不理解,我们把基因读出来,我们刚理解了一点点。”

生命的数据包括基因数据、RNA数据、蛋白质数据、代谢数据、饮食数据、能量数据、运动数据等。碳云智能期待的是帮助每个生命数字化,并进行管理。

在王俊现场的调查中,会场里只有个位数的观众有个人的基因数据。王俊感叹,“连最简单的基因(数据)在这样高端的人群里面都不超过1%的人有,更别说在广阔的人群体系里面。”

“所以生命科学的大数据还没有到来,还没有真正到来。我们应该在这个领域里面做非常充分的准备,要迎接它的到来,或者是要创造它的到来。”王俊说。

作为碳云智能的投资人之一,曾强表示,虽然王俊并未给其任何公司的财务数据,但是还是相信和支持碳云智能。“当时我要入股他们公司,他也没有给我任何数据,去年的财务报表也没有。我们还是非常坚信王俊会给我们带来非常好的回报。”

 碳云智能创始人王俊,碳云智能,王俊,鑫根资本,生命科学大数据

主持人曾强:王俊你的发言应该是最受关注的,在座有多少人想活到超过100岁的?王俊,你说说你的观点。

王俊:这是我第三次参加IT领袖峰会。2015年的时候我和吴恩达作了两个主题演讲,后来我离开了华大基因,他近期也离开了百度。今天有两个更牛的人做了演讲,一个是马云,还有一个是朱民,讲了以后许勤走了,峰会充满变数。

主持人曾强:但都是升了。

王俊:未来充满不可预测性。挺有意思的,今天提到生命的时候,提出一个观点,生命是可以数字化的。我觉得这样挺好的,这样我可以纠正他。从生命可以数字化的假设来讲本身就是错误的,因为生命本身就是数字化的,而不是可以被数字化的,生命本身就是数字化的,生命本身就是程序在运行,运行中不同的迭代有不同的结果,只不过运行的方式和原理不被我们知道,我们还不理解,我们刚理解了一点点,我们把基因读出来,好像一个人把一个软件程序读出来以后,能不能够用测序,以前华大基因就做这个事把ATCG碱基读出来,这个读出来很简单,但问题是你不理解这个程序。

刚才张首晟讲人工智能三个很核心的要素,我先把计算能力和算法放到一边,我们先说数据本身。

我不知道在座多少人手上有你自己的基因数据(6个人举手),有多少人在网络上有你的社交图片数据,有多少人在网络上有你说话的数据,有多少人有你各种各样的走路走多少步的数据,我们就知道了生命科学的大数据时代远远没有到来。我们现在看到人工智能可以对图象识别、语音识别做很多比较深入的探讨。

这个活动的参与者都是非常高端的人群,结果只有两三个人举手说我有基因数据,但是细聊一下他手上有的可能只是片断的基因数据,而不是真正的全部基因数据。

基因是生命科学数据里面最简单的数据,它是一个线性的ATCG的最简单的数据

我不知道各位有没有此时此刻或者这一辈子做过全部蛋白质的数据?没有。有没有此时此刻全部代谢物的数据?没有。那就更不要说DNA甲基化数据,更不要说RNA的数据怎么样,蛋白质的数据怎么样。这就是生物学,你要理解生命本身,需要生命科学的数字化的数据,但在座的没有什么人有这些数据。

那我们有什么数据呢?我们手上有的最多数据是临床数据,绝大多数人都去过医院或做过体检,在体检中心或医院里面可能会有你的体检报告,医院的诊疗报告。这是现在的人工智能领域应用最多的,IBM Watson也开始把所有病人的病历资料拿过来,做一个人工智能的诊断,把自己当成普通医生,或者当成一个比较好的医生,这是现在做的更多的。

但是,如果你真的想理解生命本身,从结果算结果是算不出来的

比如,我想管理糖尿病,中国的糖尿病发生率非常高,得了糖尿病和要得糖尿病的人群大致占比1/3。

我不想得糖尿病,但现在跟糖尿病有关的数据有哪些呢?唯一的数据就是在医院里面的测血糖,测了一次以后血糖数据是怎样的,这是你唯一的数据。你通过那样的数据和糖尿病的用药数据,让你自己不得糖尿病几乎不可能。

在糖尿病的管理体系里面应该做的第一件事情(是知道)糖尿病的原因是什么。有的人天生得糖尿病的概率高一点,有的人天生得糖尿病的概率低一点,这就是你的起点,这就好比一个产品出厂的程序好不好。

第二个是饮食习惯好还是不好,我得糖尿病的风险高,我天天注意运动,饮食也非常注意,我可能没问题。我得糖尿病的风险低,但是天天胡吃海喝,一天一斤茅台,我得糖尿病的风险就很高。那这些数据有没有被记录过,有多少人被记录过?所以你真的想要管理自己的健康,管理自己的生命,首先前提是有多少数据真正被记录了,而不是简简单单的记步的数据。所以这是碳云智能很核心的使命,帮助每个生命数字化。

生命是可以被计算的,不仅仅是可以被数字化的,因为它本身就是一个程序,它在算我今天喝了一碗粥,血糖怎么变,这是可以用数学公式精确描述出来的,而不是随机变化,想高就高,想低就低,不是的。身体是一个非常精准控制的机器,而这个机器本身是可以被计算的。

所以有一个真正能够理解这个生命最好的办法是用计算机里的一套人工智能的学习系统来学习你这个生命的特质。

我今天喝一碗粥,血糖怎么变,我记录下来了,我计算了,我有模型,有输入、输出。我做多了,回过头来看,这个模型越来越准确了,我做了一个计算机的王俊,这个计算机的王俊跟现实的王俊一模一样。我跑马拉松,它也跑马拉松,它跑完马拉松的身体跟我是一样的。如果这样可计算的模型实施出来,未来就可以基于你的数据做一些精准的健康管理模型。

我认为,生命是以碳为基础的碳基的世界,未来会和硅基世界会完全打通。因为在硅基世界里的人工智能和碳基本身这个体系就是人工智能体系,会越来越相像,能越来越理解对方。如果对于这样的神经网络的东西越来越像人,我们学习生物学可能不再是以人为研究对象,而是以计算机的人工智能为对象来做。很多东西的突破在未来5-10年会有非常大的变化,但是我不想over promise,因为就像刚才我讲的连最简单的基因在这样高端的人群里面都不超过1%的人有自己的数据,更别说在广阔的人群体系里面。

所以生命科学的大数据还没有到来,还没有真正到来。我们应该在这个领域里面做非常充分的准备,要迎接它的到来,或者是要创造它的到来,这是我们这个领域里面应该去做的一件事。但是它的时间和步数可能会很快,三五年的时间就会有飞跃的发展,十年可能整个你看到的医疗健康体系、保险体系会完全不一样,在那个时候在座的各位都能等得了,76岁的平均寿命,100岁、120岁完全有可能,因为生命这套程序的设计就是120岁。

问题是你能不能让这个程序运行到120岁,在于你能不能理解和认知这个程序是怎么运行的,而这些东西都要在数据基础上才能完成。

这个(生命科学大数据)年代刚刚开始,有点像10年、15年前IT行业一样,或者互联网行业一样,刚刚在兴起,充满了机会,也充满了挑战。

主持人曾强:在座大家肯定会有一个人问王俊如何把生命活到120岁以上。刚才王俊纠正我,我说生命是可以数字化的,他说生命本身就是数字化的。我跟王俊一直争论,当时我要入股他们公司,他也没有给我任何数据,去年的财务报表也没有。我们还是非常坚信王俊会给我们带来非常好的回报。

相关领域
商业