作为高投入高风险的创新行业,生物医药行业一直面临着“双10困境”:一款新药的研发至少需要花费10亿美元、10年投入。伴随着AI大模型引领的创新浪潮席卷全球,生物医药产业正在面临新一轮的机遇期。 一家初创企业借助大模型的算力,在短短两年内找到合适的抗癌苗头化合物,AI大模型能否真的改变生物医药的“双10困境”? AI辅助寻找抗癌苗头化合物 “经过AI生物大模型的虚拟筛选,从780万个分子库中最终找到6个潜在活性分子,效率相较于以往的人工筛选提升了成千上万倍。”杭州立德 百克生物 医药科技有限责任公司负责人王紫壹告诉记者,生物医药行业有一个“双10魔咒”,一款新药的研发至少需要花费10亿美元和耗时10年投入,这是一家初创公司几乎难以承担的成本,如今凭借AI大模型的能力,生物技术团队也能实现弯道超车。 乳腺癌是全球女性发病率最高的恶性肿瘤,去年我国乳腺癌发病人数超过42万,CDK4/6抑制剂是该领域最为畅销的药物,有机构预测全球总的CDK4/6抑制剂市场将在2029年超过200亿美元,占乳腺癌药物销售市场份额的42%。 目前已经上市的CDK4/6抑制剂有4个,在研的更是多达几十个。 立德百克自主研发的 PPI 检测技术,可以对蛋白质之间的相互作用进行快速的“湿”实验(生理学试验方法)验证,建立了专门针对CDK4/6-CCND蛋白-蛋白相互作用的药物筛选技术和活性检测技术平台,但是如何找到苗头化合物分子却犯了难。 “市面上的化合物商品库中有上千万种化合物,筛选工程耗时耗力,恰好生物计算大模型能弥补这一短板。”通过引入 百度 飞桨螺旋桨的文心生物计算大模型技术,王紫壹团队的“干”实验(计算机模拟试验方法)能力得到极大的提升,通过虚拟筛选, 从780万个分子中得到了模型打分比较高的110个分子,并采购了其中的40个进行检测,最后发现有6个高潜力的分子,其中3个化合物能够同时打断CDK4/6-CCND蛋白-蛋白相互作用,还有3个化合物能够打断CDK4-CCND蛋白-蛋白相互作用。 目前,双方正在对这些化合物进行更进一步的分析研究,也为下一步的结构优化提供数据准备。 记者获悉,去年5月 百度 对外发布了 文心生物计算大模型 ,并将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子、基因组学信息的生物计算领域预训练大模型。目前正式对外发布的文心生物计算大模型,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。 国产生物大模型进入爆发期 当下,随着通用大模型的走红,生物医药等垂直领域大模型正逐渐浮出水面。不少 研报 指出,AI制药行业经历了算法迭代、算力提升及海量实验数据的堆砌,随着AlphaFold2、ChatGPT等创新产品的出现,行业有望迎来高速发展的成长初期。 AI大模型如何提高新药研发的效率,之江实验室图计算中心副主任陈红阳有一个非常形象的比喻:靶点发现是药物研发过程中的关键环节,其中靶点是药物在体内的作用结合位点, 药物好比一把“钥匙”,靶点就是与之匹配的“锁”。 基于大量的医学材料和生化数据,生物计算大模型能发掘潜在的药物靶点,甚至预测靶点与潜在药物之间的相互作用,提高药物研发成功率。 国外的 研究报告 显示,AI可以将新药研发的成功率提高16.7%,AI辅助药物研发每年能节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。根据 英伟达 公开资料, 使用AI技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。 生物制药和转化医学作为AI的重点赛道之一,涉及药物设计、筛选、优化、验证等多个环节,需要处理大量的复杂数据和知识,也吸引了更多的竞争者。 早在2020年,在第14届国际蛋白质结构预测竞赛上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4的好成绩,比第二名高25分,被中国科学院院士施一公评价为“ 人工智能 对科学领域最大的一次贡献”。 随后国内AI生物大模型逐渐开始发力,清华智能产业研究院日前开源了轻量版BioMedGPT1.6B,这是一个参数为16亿的生物医药领域轻量级科研版基础模型,具有跨模态与知识融合的特点,可以处理药物性质预测、自然语言类、跨模态等多种任务。 近日,上海 人工智能 研究院执行院长宋海涛表示,计划在生物制药、转化医学等领域,利用国产化训练框架推出国产大模型, 打造具有自主 知识产权 和核心竞争力的 人工智能 技术。 中银证券 研报中表示,AI医疗市场呈高增长态势,市场规模在2025年有望达385亿元,2020—2025年复合年均增长率达46%,其中AI制药是AI医疗领域的重要一环。 AI介入新药研发仍存挑战 目前,AI技术在生物医药产业的核心优势在于提升效率,但在落地过程中仍遇到了一些挑战。 百度 智能云相关人士认为, 药物研发真实的高精度实验数据获取成本极高,且有实验的批次效应问题, 公开的数据库有大量的无标注数据,如何利用好大量无标注数据和少量高精度数据,这就对模型构建提出了较高的要求。其次,
阅读更多(Read More)