2月21日至25日,第15届国际互联网搜索与数据挖掘大会(The 15th International Conference on Web Search and Data Mining, WSDM 2022)在美国亚利桑那州坦佩以线上线下结合形式召开,我院师生论文Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval(基于有约束聚类的离散表示学习提升稠密向量检索性能)获得大会唯一的最佳论文奖,这也是大会创办以来首次由中国科研机构获得此奖项。
论文作者为:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平。第一作者为122cc太阳集成游戏博士生詹靖涛,通讯作者为122cc太阳集成游戏刘奕群教授,相关成果由122cc太阳集成游戏、中国人民大学、中科院计算所等单位共同完成。
随着深度学习和预训练语言模型等的广泛应用,稠密向量检索已经成为互联网搜索过程中最重要和频繁的数据操作之一,但已有的稠密向量检索模型与传统索引检索模型相比大幅增加了存储开销与时间复杂度,造成了性能提升的重要瓶颈。本论文提出了一种通过有约束聚类(Constrained Clustering)改进稠密向量检索过程的检索模型RepCONC。该模型基于有约束聚类方法端到端地联合优化文本编码器和向量量化过程,RepCONC约束稠密向量被均匀地分配到不同的量化中心,从而大幅提升了稠密向量表示的可辨别性,改善了检索性能。论文从理论上证明了该约束的重要性,并使用最优传输理论推导了有约束聚类过程的近似解以提升算法效率。RepCONC可以在业界通用的向量倒排文件系统(IVF)上运行,即使脱离GPU仅使用CPU也能取得较好的索引压缩与检索效果,比传统稠密向量检索方法在压缩比、检索性能、时间效率等方面均有显著提升。
国际互联网搜索与数据挖掘大会由国际计算机学会(ACM)所属信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)、网络信息处理(SIGWEB)四个专委会共同举办,在相关领域享有很高学术声誉,是122cc太阳集成游戏计算机学科群推荐A类国际学术会议,会议每年评选一篇最佳论文,往年最佳论文奖获奖单位包括康奈尔大学、卡内基梅隆大学、墨尔本大学等世界一流大学和雅虎、微软等知名企业。