近日,我院孙茂松团队成功研制了能够综合阅读生物医学领域文献和分子结构的深度学习技术,相关研究成果“连通分子结构与生医文献的深度学习系统”(A Deep-learning System Bridging Molecule Structure and Biomedical Text with Comprehension Comparable to Human Professionals)于2月14日在《自然·通讯》(NatureCommunications)上在线发表。
对分子实体的性质及其相互作用规律的深度理解是药物研发的重要基础,长久以来受到生物医学领域研究者的广泛关注,研究成果分布在海量科研文献中。为了加快生物医学研究进程,深度学习技术被应用于阅读和处理大规模生物医学数据,以自动提取分子实体的相关知识。然而现有面向生医文献和分子结构信息的机器阅读技术只能孤立地处理特定类型信息,无法同时处理文本和分子结构等多种类型信息,难以提取和整合蕴藏其间的复杂知识,这与人类专家相比存在较大差距。为了解决这一挑战问题,孙茂松团队提出采用统一的深度学习框架连通分子结构和生医文献,建立富知识的机器阅读模型,实现对分子实体的全面深度理解,更好地协助生物医学研究。多项实验结果表明,该技术具有对分子结构和生物医学文献等信息的综合处理能力,特别是在分子性质理解测试任务上,该模型可以达到与人类专家相当的性能。
孙茂松团队所提出的连通分子结构和生医文献的深度学习模型,已在多个生物医学典型研究场景中验证了有效性,并进一步实现了深度学习技术辅助生物医学研究的新范式。例如对于任意分子结构,该模型可以预测并生成该分子性质的自然语言描述;对于给定的分子性质要求,该模型可以协助筛选符合条件的分子结构等。该研究展示了深度学习技术在阅读理解海量生医文献和知识库、促进自动药物发现和性质理解方面的巨大潜力。
分子结构与生医文献的协同学习框架
该论文通讯作者为122cc太阳集成游戏党委副书记刘知远副教授与孙茂松教授,第一作者为122cc太阳集成游戏博士生曾哲妮与姚远。该研究由国家重点研发计划与122cc太阳集成游戏国强研究院提供支持。原文链接:https://www.nature.com/articles/s41467-022-28494-3