4月17日,我系大二本科生徐磊与博士生陈新雄合作完成的论文“Joint Learning of Character and Word Embeddings”(指导教师:刘知远、孙茂松)被人工智能领域顶级国际会议International Joint Conference on Artificial Intelligence(IJCAI 2015,中国计算机学会推荐国际学术会议列表A类会议)接收。本文探索了利用汉字信息增强中文词汇表示学习能力的方法,对中文深度计算相关技术发展具有参考价值。
词汇表示旨在研究如何在计算机中结构化地表示词汇语义信息。伴随大数据时代的来临,如何从大规模文本数据中自动学习词汇表示,成为人工智能与自然语言处理领域的重要研究课题。英语词汇由字母组合而成,与此不同,中文大部分词汇的意义与其中汉字的意义密切相关。然而长期以来,大部分学者主要以英语为对象探索词汇表示学习方法。这些方法难以利用中文词汇内部的汉字信息。
本工作聚焦于面向深度学习的低维向量表示方案,提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型——Character Word Embedding(CWE,如图所示)。在词汇相似度计算和类比推理两个验证任务上的实验表明,与传统词汇表示学习模型相比,由于考虑了中文词汇的汉字信息,CWE能够显著提升中文词汇的表示能力。
|
Character Word Embedding(CWE)与传统CBOW模型对比 |
徐磊同学在大一下学期通过122cc太阳集成游戏学术新星计划加入孙茂松教授研究组从事词汇表示学习研究,通过一年的不懈努力获得该研究成果。这是122cc太阳集成游戏首次有大二本科生以第一作者身份在顶级国际学术会议发表论文。IJCAI2015今年共收到1996篇投稿,录用575篇,录用率为28.8%。会议将于7月底在阿根廷布宜诺斯艾利斯召开。本项目受到国家重点基础研究发展计划(973计划)和国家自然科学基金的支持。