近几年来,图机器学习模型如图神经网络(GNN)的研究与应用呈现爆炸式增长。小到原子分子结构,大到社会社交关系,都能够建模为图机器学习问题。然而,不同的图数据在结构、内容和任务上千差万别,所需要的图机器学习模型也可能相差甚远,导致不同任务的模型自动化面临巨大挑战。如何设计最优的图自动机器学习模型,是一个尚未解决的难题。
自动机器学习(AutoML)旨在将机器学习的过程自动化,在降低机器学习使用门槛的同时,提升机器学习的效果。但现有的自动机器学习工具,无法考虑图数据的特殊性,因此无法应用在图机器学习模型中。为了解决该问题,我院朱文武教授团队发布了世界首个自动图学习框架与开源工具包:AutoGL (Auto Graph Learning),框架如图1所示。
图1. AutoGL 流程图
具体来说,AutoGL框架将图数据上的自机器学习任务分解为四个部分(对应于图中的AutoGL Solver部分):特征工程(Feature Engineering)、图学习模型(Graph Learning Model)、超参数优化(HPO)、以及模型自动集成(Auto Ensemble)。每个部分在设计时都引入了对图数据特殊性的考虑。基于该框架,我们开发了AutoGL开源工具包,可以在图数据上全自动进行机器学习,目前支持图机器学习中最常见的两个任务:节点分类任务(node classification)与图分类任务(graph classification)。
AutoGL框架及开源工具包极大地方便了开发人员进行对应的图学习算法设计和调优。用户只需要按照AutoGL的数据集标准提供目标数据集,AutoGL就会自动寻找最优的模型和对应的超参,从而简化了图学习算法开发与应用的流程,极大提升图学习相关的科研和应用效率。此外,AutoGL也提供了一个供使用者公平地测试与对比算法的平台。AutoGL在设计时遵循模块化思想,每个模块均可扩展,用户只需要实现对应模块类的接口,即可方便地测试自己的算法,为快速获得baseline效果、公平对比不同模型性能提供方便。
AutoGL由122cc太阳集成游戏朱文武教授团队研发,核心成员包括助理教授王鑫等10余人。该项目得到了国家自然科学基金委重大项目等的资助与支持。期望AutoGL能推动自动图机器学习在学术界与工业界的深层次探索和应用。
了解更多信息,请访问“AutoGL”官方网站:http://mn.cs.tsinghua.edu.cn/autogl/