近日,智能技术与系统国家重点实验室多个课题组共8篇论文被人工智能领域顶级会议“人工智能国际联合大会”(International Joint Conference on Artificial Intelligence,IJCAI 2015)录用为长文。其中:
孙茂松教授带领的自然语言处理与社会人文计算实验室有4篇论文人工智能领域顶级会议“人工智能国际联合大会”(International Joint Conference on Artificial Intelligence,IJCAI 2015)接收,它们分别是:
博士生赵宇的论文“Representation Learning for Measuring Entity Relatedness with Rich Information”,由刘知远助研、孙茂松教授指导。本文提出一种新的实体表示学习模型,综合利用维基百科中的实体链接结构信息、分类信息和正文信息,建立对实体语义的分布式表示。在实体相似度计算等验证任务上的实验表明该模型的有效性。
博士生杨成的论文“Network Representation Learning with Rich Text Information”,为第一作者,由刘知远助研、孙茂松教授指导。网络表示学习旨在研究如何根据社会网络信息,将网络节点表示为低维向量。已有网络表示学习方法只考虑网络结构信息,没有考虑节点自身丰富的文本信息。本文提出一种考虑富文本信息的网络表示学习模型,在节点分类等任务上的实验表明,该模型能够充分利用文本信息得到更有效的节点表示。
硕士生董梅平的论文“Iterative Learning of Parallel Lexicons and Phrases from Non-Parallel Corpora”,由刘洋副教授、孙茂松教授指导。如何从非平行数据中学习翻译模型是机器翻译重要前沿课题之一,本文提出了一种从非平行数据中学习翻译模型的方法,能够从互联网多语言文本中以无监督的方式自动获取翻译知识。
博士生陈新雄与二年级本科生徐磊为共同第一作者的论文“Joint Learning of Character and Word Embeddings”,由刘知远助研、孙茂松教授指导。词汇表示旨在研究如何在计算机中结构化地表示词汇语义信息。本文聚焦面向深度学习的低维向量表示方案,提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型,在词汇相似度计算和类比推理两个验证任务上的实验表明该模型的有效性。值得一提的是,徐磊作为大二同学在顶级会议发表论文,得到了清华新闻网的报道:“清华大二本科生在人工智能顶级国际会议发表”。
朱小燕教授带领的智能信息获取课题组有2篇论文被录。分别是:
博士生朱星玮的论文“Tackling Data Sparseness in Recommendation using Social Media based Topic Hierarchy Modeling”,指导教师朱小燕教授。数据稀疏性问题一直是制约推荐系统性能的关键性因素之一。为了利用社交媒体数据中的信息来准确、高效地克服这一问题,论文提出了一种针对推荐系统的、新的社交媒体建模方法,并采用一种改进的隐含向量模型来进一步优化社交媒体信息对推荐系统性能的影响。
硕士生刘彪的论文“Incorporating Domain and Sentiment Supervision in Representation Learning for Domain Adaptation”,指导教师黄民烈副研究员。利用深度学习进行自然语言处理是国际学术前沿之一,论文提出了采用深度自编码器,利用领域标签、情感标签进行跨领域的情感分类,相比传统方法分类性能有了大幅提高。
马少平教授带领的信息检索课题组有2篇论文被录。分别是:
博士生张永锋的论文“Catch the Blank Sheep: Unified Framework for Shilling Attack Detection based on Fraudulent Action Propagation”,指导教师张敏副教授、刘奕群副教授、马少平教授。用户评论作弊一直是制约推荐系统实际应用的重要问题,尤其是在当今以各种协同过滤算法为主的个性化推荐系统当中,用户作弊行为往往对推荐系统的效果有重要影响。传统的反作弊方法需要针对不同的作弊行为设计相应的反作弊算法、费时费力;该论文则提出了一种基于可疑行为扩散的统一框架,使得系统人员不需要关心具体的作弊方法就能以较高的准确率识别作弊用户以及作弊行为。
博士生李昕的论文“Detecting Promotion Campaigns in Community Question Answering”。 指导教师刘奕群副教授、张敏副教授、马少平教授。问答社区中的商业推广行为极大地降低了用户体验,推广者往往需要一些推广渠道(如URL、电话、社交媒体账号等)来将用户和自己的推广目的连接起来。本文从抽取种子推广渠道出发,构建了“回答者-推广渠道”二部图,通过扩散检测答案级别的推广行为。同时,利用二部图扩散算法得到的用户和渠道的作弊分数,通过有监督的学习算法进行问答对级别的推广行为检测。
IJCAI始于1969年,最初每2年举行一次,从2015年开始改为每年一次,是人工智能领域的顶级学术会议,被中国计算机学会推荐国际学术会议列表认定为A类会议。IJCAI 2015将于7月底在阿根廷布宜诺斯艾利斯召开,今年共收到1996篇投稿,录用575篇,录用率为28.8%。