新药研发正变得日益困难。
人类疾病度复杂度的提升以及新的成药靶点越来越少,导致新药研发上市速度下降。目前一款新药从药物发现到临床验证、审批上市累计要花费长达10余年的时间。
不仅如此,新药研发还具有高投入特点,据相关数据,仅临床前研发市场投入规模就达 600 亿美元,其中蛋白尺度实验的市场规模更是高达180亿美元。
因此,基于药物研发本身高投入、高技术、高风险、长周期的特性,大量企业都不可能单依托实验发现药物,而是试图通过AI、大数据等计算技术加速药物研发。
具体而言,在AI辅助制药领域,AI主要的作用是对候选药物分子、化合物、蛋白质的结合以及基因的作用完成机理上的模拟和计算,典型的应用场景包括虚拟药物筛选、蛋白质结构预测等。
AI、大数据等前沿信息技术正在成为制药领域的刚需,并催生出一片蓝海市场,吸引大批企业入局。这是一条前人未曾走过的路,注定并不平坦。
算法及数据,AI制药的两大难题
一般来说,新药物需要先确定好某疾病的靶点,这就是药物主要的作用点。靶点往往是蛋白质,可以说,了解蛋白质,是新药研发的第一步。
然而,“传统的蛋白质组学分析技术和方法,并不完全适合用来研究蛋白质系统,所缺乏的是对蛋白质进行定量数据积累的过程以及没有合适的算法。”西湖大学特聘研究员郭天南曾在媒体采访中如是说到。
深势科技创始人兼首席科学家张林峰也提到,在决定运用人工智能和分子模拟算法为研发人员提供微观世界计算与设计的工具时,他们也面临处理AI模型与数据方面的问题。
深势科技创始人兼首席科学家张林峰
原因主要在于,AI本身需要相对规模化、结构化的数据进行训练,再提取数据间的规律进一步优化模型。而在“AI+分子模拟”中,往往欠缺高质量的数据。AI难以发挥效力。
为了解决数据与模型“先有鸡还是先有蛋”的问题,深势科技另辟蹊径,从源头学习相关领域的科学原理,再基于AI学习的科学原理实现仿真模拟,进而产生新的数据。尔后,再通过AI产生的数据与实验数据相结合,推动高层级的AI模型出现,循环迭代。
最终,深势科技在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖。
形成“计算+实验”新范式,带来药物研发变革后,深势科技遭遇新痛点——算力需求暴增。
“最开始一台笔记本便可以运行我们研发的‘AI+分子模拟’算法。随着提供的解决方案的规模化,对算力的需求开始增加,我们一步步迭代到了采用小型超算。由于‘AI+分子模拟’计算模式本身的特点、不同环节对算力规模的需求以及对机器类型方面的要求,如何实现有效计算变成了公司发展过程中不得不面临的问题。”张林峰提到。
研发新范式,算力需求暴增
实际上,对算力的需求并非仅仅只是深势科技所需要面对的问题,而是当前大热的生命科学领域面临的共同诉求。
计算机辅助药物设计和基因测序是生命科学的两大场景。新技术的引入带来了提效,也让两者对算力的需求暴增。
高通量基因测序经历样本制备、上机测序后,将产生庞大的基因序列数据,并涉及海量的数据存储、计算与传输,这对底层基础设施有着极高的要求。
专注于基因检测和精准医疗的生命医学企业圣庭医疗,近几年业务量增长快速,随着数据量的增加,所需的服务器与运维成本急速上升,IDC机房的算力难以满足要求。大量的测序文件需要排队,时间给测序人员带来大量的压力,也会影响患者的体验。
在深势科技所面向的计算机辅助药物设计领域,无论是靶点发现、化合物合成等药物发现阶段,还是化合物筛选等临床前研究阶段,往往都需要借助高性能计算所提供的强大计算能力。
新兴的研究范式要求海量算力,行业的高速发展更是让企业对算力需求高速攀升。
上云,成为了生命科学企业的共同选择。
阿里云高性能计算产品研发负责人何万青,讲述HPC+AI如何支撑生命科学行业快速发展
圣庭医疗最终通过上云优化了传统IDC集群的数据可靠性、运维成本及效率问题,基因比对与分析效率提升了70%。阿里云超算团队在E-HPC上实现Slurm业务工作流dependency与自动伸缩的结合,减少了无效的计算资源浪费,有效降低了使用成本。
深势科技也跟大多数新兴企业一样,一开始就选择了在云上构建业务。深势科技对算力的需求十分明确:快速为客户部署业务,同时由于本身业务量波动较大,希望利用云的弹性伸缩能力,以便最大化利用计算资源,以最高的性价比完成有效的计算。这也是大多数生命企业的诉求:快速扩容、降低运维成本。
通过深势科技Hermite™平台 + 阿里云弹性高性能计算E-HPC集群,深势科技平均每条管线的合成规模由上千缩小到数十,大幅降低了合成成本,减少了定制合成的等待时间,管线推进到临床前候选化合物的时间也缩短了一半。
依靠云的弹性,驱动海量算力
为何生命科学领域企业纷纷选择上云?或许这与当前生命科学企业本身对高性能计算的需求息息相关。
对于创业企业而言来说,IDC数据中心显然跟不上其快速发展,轻装上阵反而让深势更好地专注自身业务。此外,IDC数据中心建设本身缺陷也十分明显——企业IT基础设施可能将面临资源规模固定、建设周期长和硬件资源运维成本高三大核心问题。当生命科学领域企业业务高速发展时,上述缺陷将变得更为突出。这也是为何驶入了发展快车道的圣庭医疗选择上云。
“云时代相对于传统IT时代,最大的特色是把传统IT时代的软硬件‘服务化’——通过IaaS、PaaS、SaaS提供服务。”阿里云智能弹性计算产品线负责人张献涛指出,“在传统IT时代,最大的弊端就是所有的产品都要一次性买断,需要雇佣人员做应用的运维、做基础设施的运维,做中间件/数据库方面的运维。但是今天,这些东西被服务化之后,云厂商提供了从IaaS到PaaS到SaaS的完整云服务体系。”
阿里云以 “资源池”的形式对计算、存储及网络资源进行组织,既避免了对有限资源的闲置,也可在负载峰值时及时调配。同时允许企业以更快、更低成本享受到云上技术红利,使得企业IT资源配置最优,极大程度减少企业在IT运维方面的投入。
除了前文提到的加速AI药物研发的深势科技与圣庭医疗之外,致力于“单细胞测序”的企业寻因生物、致力为“穷人病”找药的全球健康药物研发中心(GHDDI)等机构,都使用了阿里云高性能计算。
阿里云新增三大方案,支撑生命科学发展
在云计算领域有着先发优势的阿里云早在2009年自研了国内唯一的飞天云操作系统,尔后通过分布式计算“神龙”、分布式网络“洛神”、分布式存储“盘古”等的打造使得企业可以弹性调度使用计算资源。
在通用算力平台的基础上,为了更好地满足生命科学行业不同场景需求,8月5日,在2022阿里云生命科学与智能计算峰会上,阿里云高性能计算研发负责人何万青发布了《生命科学行业云上解决方案及最佳实践》白皮书,同时推出高性能容器、大内存、高IO等三大高性能计算解决方案,满足基因测序与AI制药领域中海量级数据分析、作业流程与环境各异等场景需求。加上原有的公有云及混合云的解决方案,共计五大解决方案。
深势科技目前使用的就是混合云解决方案。做出这一策略背后,是由深势科技服务的客户决定的——深势科技客户中多是高校与药厂客户,有可用的IDC数据中心计算资源。
寻因生物选择的则是大内存解决方案,因为在单细胞测序数据分析过程中,每个细胞的表达量数据高达数十万条读取 (reads),产生的数据更是要大得多,这种海量级的数据分析对云主机的内存容量提出了更高的要求。
当寻因生物将单细胞测序分析任务部署在了第三代英特尔®至强®可扩展处理器 (代号: Ice Lake) 和英特尔®傲腾™持久内存的阿里云i4p持久内存型实例上,并在实例中使用了MemVerge公司开发的Memory Machine大内存软件,不但完全消除磁盘读写带来的IO瓶颈,成功地运行了多细胞数、大样本的测序数据分析任务,并能通过Memory Machine的ZeroIO内存快照功能使数据导出和加载从原来的1000秒降至2.5秒,将数据读取的效率提升了两个数量级。同时,阿里云E-HPC可弹性伸缩带Memory Machine的ECS 节点,一键安装部署环境,E-HPC 负责弹性伸缩、自动纳管MemVerge节点,业务高峰扩容带有Memory Machine软件的ECS i4p 实例加入到HPC 集群中,低谷时释放,节省成本。
深势科技跟阿里云的合作也在进一步深入,Hermite™药物计算设计平台基于阿里云计算巢+E-HPC服务,为药企提供了兼顾SAAS灵活性和数据资产安全性的交付方案,最大化提升了Hermite™在云上的运维效率,且进一步加强了客户对Hermite™的信任感。
随着深势科技对“AI+分子模拟”进一步的探索,越来越多的医药企业无疑将聚集其中。而最终,或许如阿里云高性能计算产品研发负责人何万青所提及的那样,“云计算所特有的连通性和弹性,能够帮助打破研发孤岛,促进数据成果的复用和创新。”而这些最终将赋能生命科学行业医药研发提速。
2023-11-09 动脉网发布了 《深化技术基建优势,智云健康持续升级数字化能力》的文章
2023-10-13 动脉网发布了 《泛生子签署私有化协议,精准医疗龙头砥砺前行》的文章
2023-09-22 动脉网发布了 《腾讯的大模型,可能是最快落地医疗场景的大模型》的文章
2023-09-06 动脉网发布了 《美央创新科技完成近亿元Pre-A轮融资》的文章
2023-08-01 动脉网发布了 《生成式AI再下一城,大经中医“岐黄问道·大模型”正式发布》的文章