10月27日,由澎湃新闻主办,上海报业集团指导的“算力时代 中国科技突围·2022科创领袖论坛”在澎湃新闻北外滩世界会客厅演播室召开。复旦大学复杂体系多尺度研究院院长马剑鹏、天壤创始人兼CEO薛贵荣、斯微生物联合创始人兼CTO沈海法以及本场圆桌论坛的主持人,澎湃新闻宏观新闻部兼财经新闻总监李跃群一起就“大算力时代下的创新药研发”展开了对话。
圆桌沙龙“大算力时代下的创新药研发”:主持人李跃群(左一)与马剑鹏(左二)、薛贵荣(右二)、沈海法(右一)展开探讨李跃群:去年Deepmind对Alphafold2进行了开源,对整个结构生物学以及产业界都产生了非常大的促进,大家都觉得这个东西可能是AI领域对生物医药最大的一个革命性因素。我想问一下大家,对你们各自领域的研究有怎样的帮助?
复旦大学复杂体系多尺度研究院院长 马剑鹏马剑鹏: Alphafold2蛋白质的结构预测精度已经被大大提高了,但是大家记住,Alphafold2至少到今天为止,做得再好,它只提供了蛋白质的静态结构这部分,而蛋白质的静态结构并不是现在才刚刚有能力做的,实际上实验工作者已经做了几十年,只不过用计算机来预测这一步提高了很多,但是其实还远远不够。回到你刚才的问题,这个事情怎么来影响制药。首先,因为Alphafold2的成功,使得AI对各行各业产生了非常深远的影响,现在人工智能在各行各业尤其在AI赋能新药创新这个领域很红。它的确有用,但是我们必须意识到,现在才是真正要问AI到底有什么局限性的时候,不是一窝蜂地扑上去什么东西都没有出,我认为它的局限性之一就在于这个Alphafold2再强,到今天为止没有超过实验精度。
实验工作者已经做了几十年了,没有蛋白质的数据库,Alphafold2也不可能成功。所以Alphafold2从算法上对我们的影响是巨大的,它做到了前辈们一直做不到的事情。对实验工作者它的影响也是巨大的,它可以加快实验工作者对蛋白质结构的测定,但是基于蛋白质药物设计这条路还很长。
我们政府正在强调搞创新药,仿制药是没有前途的,搞创新药真正的源头在靶标的开发。但是问题出在哪儿?靶标开发这部分不是制药公司想做的事情,因为纯粹的靶标开发是一个非常艰难的基础科学问题,遗存问题,它本身不赚钱。但如果我们的药企不在这上面花力气,而是花钱去买一些学术界开发出来的靶标,很难创新。尤其在我们国家,你要上市要求是创新药,靶标都不是你的,你怎么创新?所以我在这里强烈呼吁我们国家要大力地投在靶标开发上,这是一个基础问题,你光靠这个想赚钱是不可能的,但是你最后想赚钱,如果不投在这上面会失败的。
天壤创始人兼 CEO 薛贵荣薛贵荣: Alphafold2算法的研发开创了一个新时代。在算法有限的情况下,我们大家做事都是点上做事,比如说盯着某一个蛋白或者是某一个片段在做研究。但因为有Alphafold2算法的突破,我们怎么样以全局更宏观地去看整个人体的健康、药物研发的整个流程,这是一个新的机遇,就是从原来的单点变成从点到线到面这种全局的研发的智慧。Alphafold2只是一个开始,很多的结构生物学的人,包括做药物研发的人,都开始用这个工具来去做一些研究,论文的发表数量也是呈指数型在增长,包括我们以前很难破解的一些蛋白质结构也被发现了。等再过五年我们再来看这个问题,这是我们这个时代的一个起点,未来就是依靠算力,把创新药的研发从点上研究到整个全局性的研究进行更大的突破。
李跃群:好的,沈总来自斯微生物,你怎么看Alphafold2带来的结构生物学的革命,对你们制药企业来讲是否对效率提升有帮助?
斯微生物联合创始人兼 CTO 沈海沈海法:作为一个做实验科学的人,从我的角度来讲,AI包括Alphafold2对药物研究有很大的助力,它能够帮我们做一些以前可能要用很多年完成的一些事情。但是AI和湿实验室和药物研究的结合现在还只是一个非常初期的阶段,咱们刚才主要谈的是蛋白质的结构,或者是很多情况还是一个多肽的,一个小片段的结构,对于核酸领域来说,这种结构可能还会更复杂,怎么样把Alphafold2以及相关的技术扩展,从蛋白质领域扩展到所有的药物靶点,还需要业界花很多时间做出很大的努力才能达到。李跃群:现在很多制药企业跟AI公司也进行了合作,比方说像斯微生物就有这方面的合作,尤其是在mRNA疫苗这一块。因为传统制药企业有自己的一套流程以及它的思维方式,在跟AI企业合作过程中,能够擦出怎样的火花?双方有怎样的鸿沟可能需要进行弥补?能否讲一下实践中的一些例子。
沈海法:对于制药企业来说,我们的目标当然是能够尽快研究出非常有效的药物,从靶点开始一直到产品的研发和生产。前期的工作其实是很重要的,以mRNA药物为例,一个mRNA分子可以翻译成一个蛋白质,但是大部分氨基酸有好几个密码子,比如说丝氨酸有四个密码子,所谓密码子就是由三个核苷酸组成的组分。对脯氨酸来说又有一个密码子,如果把这个放到一个有一千个氨基酸组成的蛋白质来说,这个排列组合是无穷无尽的事情。如果你想一个一个组成去试,一辈子都试不完。但是如果根据过去的经验,积累了一些经验,包括一些算法,比如说有一些特定的组成,你可以使得它能量保持最低,这样的话可以得到一个并不是最好,但是是很好的mRNA分子,有助于高效地表达你的蛋白。
这个过程中,传统的制药公司很多是没有这个能力的,需要跟互联网公司以及 AI领域的专家来合作,把这个过程给完成。事实上我们现有的几个管线在过去两年里面都是这么做的,效果还是挺好的。
李跃群:天壤一开始可能有做过像围棋AI,后来也做过智能交通,现在又推出自己的蛋白质预测平台还有合成平台,你们跟制药企业的合作有没有一些可以分享的?同样的问题,擦出了哪些火花,有哪些鸿沟需要弥补?
薛贵荣:我们是从三年前开始做蛋白质结构的预测。一开始从蛋白质结构预测到蛋白质的设计,我们也希望未来的药物能够on demand去生产出来,可能未来会跟mRNA药物结合,包括跟抗体药结合。
AI制药企业和传统的制药企业之间合作的时候,可能还是有较量,但能不能把这个事儿做出来,走向市场,其实是一个很长的流程,我们也需要时间去验证。蛋白质世界里面有多少是有价值的?对我们人类或者疾病治愈是有帮助的?我们都不知道,今天因为没有人力来去做这样一件事儿,这个其实是留了一个非常大的空间。我们应该跟药企一起来联合探索这样一个空间。
李跃群:马院长,我们也知道Alphafold2开源之后很多读者有这样的疑问,他们觉得既然它已经把源代码开源了,可以高质量预测蛋白质结构了,那为什么各个国家还是要自己开发一套系统进行研发,背后的原因是什么?以及我们看到你们也发了相关论文,在侧链这块应该是有一个比较大的提升的,想要问一下这块又有怎样的优势,以及下一步研发的重点是什么?
马剑鹏:有很多人是这么想的,AI这个东西都开源了,你去做它干什么?应用就是了。首先,底层逻辑并没有开源;第二,它虽然是开源的,但是你还得签一个agreement才可以用。现在美国要封你的开源软件,是非常容易的,只要在这个license agreement上面加一句话——中国人不能用,那个时候你用了,一是论文能不能发,二是专利不能申请。就像大飞机的发动机一样,它说你不能用于军事,你就是不能用于军事,你买来用可以。所以我们必须得从头开始做,有一个自力更生版的,完了你怎么进行改进都可以。这一天比我想象到的快得多得多,今天真的到了,这是一个问题。
另一个问题,比方说我们做侧链,Alphafold2非常成功,当时一开始的时候确实全世界为之一振,因为以前没有这么大的功能。但是你仔细去想,它其实有很多局限性。其他两位专家和线上专家都讲了,它有很多事情是做不了的,所以你还得去改进,我认为这刚刚开始,绝对不是到结束的时候。
李跃群:薛总, Alphafold2开源之后给你们带来了不少的启发,但是你们也决定自己开始做一套,能否讲一下你们在做的过程中有哪些心得,以及你们为什么要推出自己的这一套?你们的优势又在哪儿?
薛贵荣:第一个,我们了解下来其实Alphafold2的整个算法是非常优美的,因为我是做AI领域研究的,大家认真去看一下,Alphafold2在一个数据不足的情况下能不能把准确的预测做出来,其实整个对我们算法界也是一个非常大的贡献,我觉得所谓的荣登《Science》的十大伟大发明之首也是一个非常重要的验证,这是一个事儿。
第二个就是我们觉得做的时候其实还是很难的,因为在算法不足的情况下,把这件事能做出来,不像Alphafold2,它有那么大的一个算力的池子能让大家去用,比如说它的TPU的芯片。我们去做的时候可能是在算力相对不足的情况下来做的。
其实把这个算法研究透了以后,会发现里面有非常多值得我们学习的东西。就是用了这个算法以后,我们发现里面还是有很多的蛋白质结构预测不是很好的。刚刚前面专家也讲了,就是对于孤儿蛋白,找不到它的同源蛋白序列,它的预测用Alphafold2也是不好的,我们今天通过我们的算法可以把这一块全部做好,这是另外一方面。
第三,我们通过算法发现蛋白质有“序列决定结构,结构决定功能”的链路,反过来以后发现我们需要这样一个功能,能不能把这个结构拿到,同时我们知道它是什么样的序列生成出来的,这样一个过程其实也是因为Alphafold2预测的成功,我们进一步了解到本质的东西是互通的。基于这样的东西,对于未来的研究,包括软件国家层面的竞争,从总体上来讲会有大的帮助。我们能不能有机会在这个基础上,站在巨人的基础上能不能走得更远,现在也是一个比较好的契机。
李跃群:薛总前面讲到算力的问题,就是说Deepmind因为是Alpha集团下面的,所以它们拥有很大的算力,很多的资金。算力的话,国内据我们知道,截至2021年底,政府这边占47%的算力,然后是金融,再接下来是互联网,用到AI上面的只有2%,算力相对不足。我想问一下三位有怎样的看法以及怎样的呼吁,怎么突破算力瓶颈?尤其像英伟达的芯片可能被限制之后,对国内的算力瓶颈问题更加突出,体制机制怎么理解?
马剑鹏: Alphafold2 Google成功的时候,至少现在的版本从AI的角度来讲非常优美,但是还是属于用蛮力在做,因为算力实在太大了,国内没有TPU,只有GPU,现在GPU也被美国人卡了。所以未来尤其是我们国家,面临现在这个国际竞争项目,算力不足的时候,你可以用算法来补,开发自己的算法,这是一件事情。所以我们国家算力肯定是不够的,即使有,算力很分散,没有有效地运用起来。
但这个又涉及到另外一个问题,Alphafold2成功以后有一个非常重要的事实,很多人没有意识到这个问题,蛋白质结构预测不是新问题,在学术界做了50年了,学术界为什么拖沓这么多年?是有前景,但是不大。
现在被谷歌一下往上提高了百分之二十多,从百分之六十几到了88%的预测精度,原因之一就是谷歌不惜一切代价。现在成功以后,带来的商业是无法估量的,但当时投入资源的时候,做一个Alphafold2能不能赚钱不是它的想法。公司做这个事情有一个特点,可以大兵团集中作战,在单一领头羊的领导下,所有人步调一致,统一指挥,而不是说做这个东西是为了发一篇文章。
当然不是说高校模式没有用,多少个世纪以来科学家都是这么工作的,它这个模式好处是可以把单个科学家的创造性发挥到极致,但是现代尤其是在生物科学,尤其是现在Alphafold2这种事情,它要大兵团作战的,虽然是个基础科学问题,但也带有强烈的工程色彩,所以要组织起来,这个在我们国家非常欠缺。
薛贵荣:马院长讲的这个非常关键,未来竞争可能就是算力,算力的竞争非常关键,我们国家也在做大量的基础性的投入,比如说东数西算。刚才讲了,整个AI才占2%,生物在这个里面可能只占整个AI里面的5%都不到,这样一个算力投入,已经非常小了。
但比如说药,比如说我们人体的健康,其实在我们整个老百姓的投入占比中还是比较大的一块,所以我是觉得这一块无论是我们的投资也好,我们的企业也好,包括我们的药企,大家一起我觉得应该是可以形成一个联盟,把这个算力这个瓶颈能够给破除掉。在这个基础上,我们可以干更大的事儿,比如说像Alphafold2,把两个亿的蛋白质的结构给发现出来了。
我刚才讲到100个氨基酸组成的蛋白质世界的空间,我们有没有机会再挖更多的出来?我觉得这个事就是我们这一辈人该做的事,这样的话我们就可以更超前地把人类疾病的问题或者是健康问题解决掉,所以在算力的加持下我们可以做得更好的事。
李跃群:沈总,我们想了解一下生物医药企业有没有遇到算力瓶颈问题,如果有,你们一般是怎么克服的?
沈海法:斯微生物是一个初创型企业,2016年成立,到现在6年时间,我们的生物信息团队也有那么十个人,和我们的AI公司,和IT公司比,这十个人是非常小的团队。这种情况下,我们能做的事情就是跟各方面的专家,跟头部的企业合作,事实上在过去我们跟上海,跟全国各地的专家有非常深入的合作,我们也和头部的互联网企业合作来研发跟我们药物研发相匹配的软件,把这些软件更好地用到药物的设计上去。我们的目标是尽可能地提高我们的药物研发的成功率。
李跃群:另外,像新冠mRNA疫苗是时下的焦点,在环状mRNA这一块斯微生物也有一些新的进展,能否介绍一下?
沈海法:新冠是2020年起来的一个流行病,在新冠以前我们是专注于肿瘤治疗性的mRNA的研发,所以在过去两年里面我们也把我们以前积累的一些经验以及和其他公司研究的一些成果用于我们的新冠疫苗的设计上。
疫苗设计其实有两块,一块是mRNA分子,比如说新冠的S蛋白现在是大家所通用的一个新冠的抗原蛋白。这个mRNA的序列怎么样去设计,我前面讲了,由于氨基酸密码子很复杂,新冠蛋白又很长,S蛋白有1000多个氨基酸,如果你把这些密码子排列组合,可能是十的几百次方,如果用传统的实验室的做法,这是不可能完成的事情。
所以在这个过程中,我们和外部的IT企业合作,跟AI企业合作,然后把那些根据AI预测,mRNA分子能够高效地表达蛋白而且比较稳定的几条,拿到湿实验室去试,到最后我们成功地找出了好几条非常高质量的mRNA分子,这些mRNA分子放到体内,当然经过一定的化学修饰以后,可以很稳定,能够高效的产生表达蛋白、翻译蛋白,这是对于我们来说经典的AI和湿实验室结合的例子。
同时,我前面讲了,疫苗不但需要高质量的mRNA,还需要高质量的递送系统,mRNA本身是带电荷的,又是大分子,进不了细胞,进不了细胞就不能产生免疫反应,所以我们也在递送系统方面下了很大的功夫,我们找到了一种非常好的递送系统,我们能够使它把mRNA送到该送的地方。
沿着这个话题讲下去,新冠疫苗现在已经走完了一期、二期,现在在做三期的试验,我们看到结果也都很好。但是接下来还有很多事情可做,可以治疗肿瘤,治疗罕见病等一系列其他的疾病,这个时候我们需要把这个mRNA不但送到特定的器官,而且需要送到特定的细胞,比如说T细胞、B细胞或者肺里面的上皮细胞,怎么样递送进去呢?怎么样改造你的递送系统呢?这些都需要AI来帮助,没有AI的话这些工作几乎是不可能完成的事情。
您刚才提到了线性mRNA和环状mRNA,应该说新冠是催熟了mRNA领域,没有新冠这个领域还不会发展得那么快。经历了两年半时间以后,咱们对这个mRNA药物已经是非常熟悉了,由此,以前没那么受人关注的一些研究领域,比如说环状mRNA也都起来了,虽然现在已经批的mRNA药物都是基于这个线性mRNA。
环状mRNA应该说也是一个挺好的方向,但是它和线性不一样,因为这个mRNA分子形成了一个环,所以它没那么容易被切掉,同时也不需要进行化学修饰来保持它的稳定性。一系列的研究表明它的免疫源性可能跟线性的也不一样,所以由于环状和线性在特性上的不同,它们可以用于不同领域。比如说线性mRNA可能是对制备新冠的疫苗会很合适,环状可能就不一定合适,蛋白替代治疗也许环状合适,线性就没那么合适。我们公司无论在线性还是在环状mRNA方面都有研究,时间会告诉我们答案。
李跃群:薛总,我们知道您这块不仅做蛋白质的预测,还做蛋白质设计,这两者之间有一定相通之处。这块有怎样的前景,技术上又有怎样的瓶颈?
薛贵荣:我们其实本质目的还是希望能够去设计这个蛋白质。那么大的蛋白质世界,我们怎么样把它里面有用的蛋白找出来,无论是用在比如说mRNA里面的蛋白序列生成,还是药物的多肽、抗体各种各样的研发,我觉得这里面有非常大的空间。
其实设计这个事儿比预测更难,已经经历了几代。一开始大家都是拿到一个蛋白,我们叫天然蛋白,做优化、做改造,让它的毒性更小,免疫源性更好,这个研究其实还是一个很创造的过程,以前都是依赖于很多的生物学家的领域的知识才能去设计这样一个新的蛋白。今天我们通过AI可以去生成一个我们没有见过的蛋白,这其实也是一个非常有趣的事。
无论是今天也好,未来也好,我觉得可能会有更多的蛋白被创造出来,这是自然界不存在的。但是就会碰到很多问题,今天最大的困难就是通过算力我们其实可以让机器运行,不断地生产新的蛋白。但是我们接下来还会碰到跟湿实验的合作,就是怎么样生产出来的就是我们要的蛋白,要做更长的验证。我们希望整个过程要加速,将来真的有个100万、1000万的蛋白是我们没见过的,又对我们的人体或者对我们各种各样的生活、生命以及其他的领域都会有很大帮助的蛋白,真的如果被产生出来,我们的世界会越来越美好。
李跃群:最后一个问题,我想问学术界的马院长,如果要把我国AI驱动下的结构生物学做大做强,您有怎样的建议?
马剑鹏: 当年计算生物学是个边缘学科,没有太多人在意,因为它没有用场。但是自从2013年诺贝尔奖给了我导师以后,和Google的这个Alphafold2的突破,一下子就变了。导致的局面是以前的分子生物学研究从实验科学,今天还是,但未来它一定是以计算生物学为引领的学科。
我们高校里的教育跟上了没有?做实验的人和做计算的人是完全两拨人,他们的语言不一样,如果我们不从底层开始教起,如果还像我这样从小就是学计算生物学这么一个专业出身的,这个行当是发展不起来的。甚至于现在在复旦大学就读的生命科学专业的学生,他如果不知道计算是干什么的,五年、十年以后他参加工作了,或者去做教授了,他连饭碗都找不到了,因为到哪一天整个模式全变了。所以如果这个问题不跟上,我们跟国际上的距离不是缩短,而是越拉越大,而且这个问题很严肃,因为课程设计不是明天就能改过来的。
所以,我在这里强烈呼吁,我们国家所有的高校都知道课改很重要,但是实际行动是完全不够的,客观原因是现在做生物研究的教授们,他们大概是十年前、二十年前受的训练,那个时候生物学是个边缘科学。所以人才的断档不是一点点的大,而是以后你们公司想招人也招不到了,现在就很紧缺。
薛贵荣:人才培养的确是今天计算生物学包括其实像AI领域要进入生物制药领域,最大的瓶颈真的是人才,就是复合型人才,不仅要懂计算还要懂生物化学,今天可能都是独立的模式在培养。
所以未来我觉得可能真的就是从学科培养、人才的培养到未来包括企业这一块的发展,包括实验室这一块的联合培养,我觉得都是可以有机会高校和企业一起联合去做这样的一些平台。
我们最近也搞了一个平台,叫蛋白质设计的平台,我们也是碰到这个问题,生物学的人要用这个Alphafold2,大家别以为说开源了我明天就能输代码进去把蛋白结构拿出来,很难的,所以它希望有一个平台,可以更集中精力去做,把软件层的工作省掉,至少让他集中精力把计算和结构分析和我们讲的药物研发整个的流程很连贯的串起来,这一块也是未来会大力发展的。就像我们以前做photoshop软件一样,比如说原来我们要画图,只能在图上去画,再拍一张照片,再用电脑把它渲染或者怎么样。今天用一个photoshop软件可以很快的把它在电脑上设计出来,所以我们将来也是一样的,设计代码也好,蛋白结构预测也好,做药物研发也好,包括mRNA的设计也是一样的,我们能不能先从电脑开始,然后再走到湿实验,整个过程就是刚才马院长讲的,计算生物学将来可能就是一个开始,来引领整个新药的研发。