为了促进中国各少数民族语言文字信息处理技术的学术研究,加强同行间的学术交流与合作,推进少数民族语言智能信息处理技术的发展与交流,在国家语委、国家民委等少数民族语文信息化主管部委的领导下,由中国中文信息学会民族语言文字信息处理专业委员会主导开展第一届少数民族语言分词技术评测活动,本次活动由中央民族大学、西藏大学和清华大学组织,2017年5月10日,组委会发布评测任务并接受评测报名。
本次评测对象包括蒙古文、维吾尔文、藏文三个语种文本自动分词。藏文:提供 1 万句训练语料、1 万句测试语料;蒙古文:提供 5 万句训练语料、5 万句测试语料;维吾尔文:提供 5 万句训练语料、5 万句测试语料。评测使用正确率(Precision),召回率(Recall)和 F 值来评价各个参与评测机构的分词结果。最终以F值排名。
参加本次评测的单位28家,其中藏文11家,蒙文7家,维吾尔文5家,多语种参赛5家。
我所民族语言应用研究室与中科院软件所中文信息处理实验室联合参加了藏文分词评测,本次我们提交了两套分词系统,分别是基于藏文分词和词性标注一体化模型的分词系统和基于音节标注的分词系统。2017年8月25日,网上公布评测结果,经评测组评测,我们提交的分词系统获得不错的成绩,得分详细情况如表1所示。
民族所民族语言应用研究室长期从事藏语信息处理研究工作,在藏语分词、词性标注、句法分析等基础研究工作方面积累了不少经验,本次参赛能够获得较好的成绩,主要源于我们在藏语分词系统中融入了部分语言学知识。
民族所与软件所联合提交的两套系统因各种原因最终未参与排名,目前公布的排名情况如表2所示。
表2 目前系统排名情况
系统 | 准确率 | 召回率 | F值 | 排名 |
primary | 93.14 | 92.17 | 92.6600 | 1 |
primary | 93.32 | 91.82 | 92.5600 | 2 |
primary | 91.04 | 91.62 | 91.3300 | 3 |