122cc太阳集成游戏AMiner和智谱.AI团队构建了一个大规模、结构化、中英文双语新冠知识图谱(COKG-19)。COKG-19旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19包含了505个概念、393个属性、26282个实例和32352个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。
团队通过语义匹配和排岐方法,将相同含义的概念进行合并,将同名不同义的概念进行区分;其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念,细分病毒等专业子类,修正疾病的子类等;最后得到的COKG-19概念层共包含505个概念,其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同domain和range的概念进行区分,共包含393个属性。
COKG-19的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。融合多种知识数据之后,COKG-19为更深层次的知识挖掘提供了非常丰富的知识数据基础。COKG-19知识图谱的构建充分利用了开源社区(OpenKG等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法,充分展现了AI+大数据技术在快速应对疫情过程中的广泛作用。