由我系孙茂松教授主持完成的ISO 24614-1《语言资源管理—书面文本的分词—第一部分:基本概念与一般原则》(Language resource management -- Word segmentation of written texts -- Part 1: Basic concepts & general principles)最近顺利通过了国际标准化组织各相关成员国的最后一轮投票,正式成为国际标准。
分词是对世界上一些语言(如汉语、藏语、维吾尔语、日语、韩语、越南语、泰语、匈牙利语等)进行信息处理必不可少的第一步。本国际标准自2004年 8月在巴黎举行的国际标准化组织第37技术委员会全会上立项以来,在项目负责人孙茂松教授的领导下,在中国标准化研究院的大力支持和积极组织下,经过韩国、朝鲜、日本、法国、美国、加拿大、奥地利、泰国、德国、意大利、中国、香港、台湾等国家和地区专家们的不懈努力与密切合作,克服了分词研究中面临的一批理论与实践问题,历时六年,终于圆满完成。
本国际标准的推出,对与上述语种相关的搜索引擎、内容管理、语音技术、语言计算、语言翻译、词典编纂等现实应用均具有重要的参考价值。