分子之心公布达尔文大模型新进展

2023-09-22 11:08    来源:每日看点快看

本文转自:新华网

9月20日,由工业和信息化部、国务院国资委、中国工程院、安徽省人民政府等共同主办的2023世界制造业大会在合肥召开,清华大学智能产业研究院(AIR)卓越访问教授许锦波携自主研发的AI蛋白质生成大模型NewOrigin(中文名“达尔文”)亮相。会上,汇聚各界人工智能领域高端人才、旨在推进多领域融合和协同创新的“AI百人会”成立,许锦波受聘任副会长。

许锦波介绍,NewOrigin大模型拥有百万级参数,学习了万亿级高质量、多层次、多模态的大数据,融合自然语言与蛋白语言,力图高精度、低门槛、高通用性地满足创新药设计、合成生物学等真实产业应用需求,大幅提升蛋白质设计的效率和成功率。NewOrigin大模型基于条件生成机制,联合使用AI、分子动力学、量子计算、湿实验等多维反馈机制,可高精度生成蛋白质序列、蛋白质功能、蛋白质知识表示等多种模态蛋白质内容,完成亲和力、稳定性、活性、表达量等多维度任务,满足真实的产业应用所需。而融合自然语言的交互方式,将极大降低使用门槛,让不具备AI算法能力的生物学家也可以快速上手。

融合自然语言的AI蛋白质生成大模型NewOrigin(达尔文)

会上,许锦波展示了NewOrigin大模型在药物设计领域的应用效果。

提升蛋白疫苗稳定性是提升蛋白质疫苗效果的重要途径之一。传统实验室方法通常使用饱和突变形成数千种、甚至数万种变体,从中筛选出符合需求的目标蛋白质,该过程耗费数月甚至数年,需要数百万成本。使用能量优化等传统计算方法受限于对能量变化的单一维度评估,精准度低,且耗时长、算力成本高。

“分子之心正与合作药企联合攻关,基于NewOrigin大模型解决蛋白疫苗稳定性难题。”许锦波透露。NewOrigin大模型可帮助药物研发团队快速分析,将提升蛋白疫苗效果的难题定位、拆解为可基于AI方法解决的子问题,如用AI设计突变提升蛋白疫苗的稳定性。而后,NewOrigin将对野生型蛋白进行突变设计,并自动调用语言模型、进化模型、结构模型、能量模型等一系列方法提取蛋白特征,预测蛋白疫苗突变体的各项性质,得到最理想的蛋白分子。仅需3天,NewOrigin就可设计出数十个理想的候选蛋白。

除了蛋白疫苗的稳定性优化,NewOrigin大模型也在亲和力优化、特异性优化、酶活性优化等多种传统方法难以突破的复杂问题上取得了重要进展。

这些蛋白质生成任务是当下通用大模型无法解决的难题。对大模型的测试结果显示,它在蛋白质生成场景下无法生成符合需求的内容。

原因在于,蛋白质序列形成的结构比自然语言的结构复杂得多,蛋白质生成的应用场景多样且与自然语言交互的通用场景相差甚远,每一个需求的满足都需要“AI专家”与“生物专家”联合解决。另外,训练AI蛋白质生成大模型需要融合蛋白质数据、基因组数据、宏基因组数据、进化与环境数据、生物医学文献数据等多模态数据,这些数据的专业性、逻辑复杂性极高,且存在数据质控、数据冲突等难题,导致数据标注壁垒比通用NLP领域高数十倍。

AI蛋白质生成大模型的高专业门槛和以应用为目标的特点,要求其研发团队除了必备的算法、算力、数据等基础能力外,还需具备融合计算机、生物、物理等多学科,熟识AI、分子动力学、量子计算等多种方法的跨领域复合背景,以及真实的产业需求与验证能力。分子之心瞄准这一目标,搭建了一支融合AI生物交叉背景与深厚产业背景的复合型团队。这支超配团队正在基于万亿级海量数据持续生产高质量标注样本,开发泛化能力强的监督模型,通过主动学习算法持续迭代数据与专业知识,并通过多阶段预训练及基于相关性的多任务微调,驱动大模型不断学习迭代,提升蛋白质生成效果,满足药物设计、新材料设计、工业、农业、环保等不同领域的差异化蛋白质生成需求。

生物是一个高度复杂但又高度数字化的系统,具备可解读、可编程的特性,与AI大模型的特质高度匹配。许锦波表示:“AI蛋白质生成大模型等生物大模型具有广阔的产业应用前景,分子之心希望通过NewOrigin大模型变革生物医药与合成生物学的未来,帮助人们平等地获取可负担的高品质生物药及绿色生物产品。”



美容仪价格跳水 要不要捡个漏?
科技

美容仪价格跳水 要不要捡个漏?

本文转自:西宁晚报 近日,#家用射频美容仪价格“大跳水”#等话题在社交媒体引发热议。记者在网络平台搜索数款品牌美容仪,曾经原价近2000元的两轮滚轮美容仪,使用消费券后只需611元,相当于打了3折。在淘宝个人店铺,同款美容仪价格已跌破100元。  [详情]

超快科学与量子感知国际会议明日起在三亚举办
科技

超快科学与量子感知国际会议明日起在三亚举办

本文转自:三亚日报 本报讯(记者 郭志华 张慧膑 林林 实习生 何承儒)1月23日,记者从三亚崖州湾科技城管理局获悉,超快科学与量子感知国际会议(USQS)将于1月25日至29日在三亚崖州湾科技城举办。 超快科学与量子感知国际会议致力于加强全球研究人员之间的合作,促进超快科学与量子感知领域的发展及其 [详情]

西安环普荣获“2023年度创新活力园区”
科技

西安环普荣获“2023年度创新活力园区”

本文转自:西安日报 本报讯(记者 李猛)近日,中国软件园区“数实融合与产业高质量发展论坛”研讨交流会表彰了行业内作出突出贡献的软硬件企业以及优秀园区。西安环普国际科技园荣获“2023年度创新活力园区”。 记者了解到,“数实融合与产业高质量发展论坛”由工业和信息化部信息化和软件服务业司指导,中国软件园 [详情]

闲鱼线下循环店试运营 二手电商线下“开打”
科技

闲鱼线下循环店试运营 二手电商线下“开打”

本文转自:广州日报 广州日报讯 (全媒体记者 邓莉)闲鱼正准备将实体门店开到消费者的家门口。闲鱼发布公告称,首家闲鱼循环商店将于1月28日在杭州拱墅区开业,除闲置实物商品交易外,还可以寄售跑腿、遛狗等服务。据闲鱼介绍,这是“闲鱼”App首次落地线下的全品类二手实体店,目前 [详情]

“福田区公共数据授权运营专区”开设
科技

“福田区公共数据授权运营专区”开设

本文转自:广州日报 广州日报讯 (全媒体记者刘畅)记者昨日获悉,深圳数据交易所与福田区政务服务数据管理局近日联合发布“福田区公共数据授权运营专区”,以规范、促进福田区公共数据开发利用,加快释放公共数据价值。福田区在深圳全市率先推动公共数据授权运营改革,在全国率先出台了区县级公共数据授权运营管理办法, [详情]