2024年11月2日,语言资源与计算人文研讨会暨语言资源与计算人文专委会第二次全体会议在中国社会科学院民族学与人类学研究所(以下简称“民族所”)召开。会议由中国民族语言学会民族语言资源与计算人文专委会主办,民族语言文化行为实验室和南京师范大学联合承办。来自语言学、计算机、统计学、自然语言处理等多个领域的专家参与本次会议,共同探讨智能技术条件下的语言资源建设方法与规划、基于语言资源的人文计算方法以及数智赋能的“绝学”冷门学科研究等问题。会议共进行5场特邀报告和8场口头报告。
会议开幕式由民族所民族语言文化行为实验研究室主任龙从军研究员主持,他在欢迎词中对参会嘉宾的到来表示衷心感谢,指出语言资源作为文化传承和社会沟通的基础,具有重要的社会意义和学术价值,并介绍了民族所的基本情况。随后参会代表观看了民族所和民族语言文化行为实验研究室的宣传片,让与会代表了解了民族所的建设历程、人数规模、研究成果及目标等。
大会会场
中央民族大学赵小兵教授作了题为《语言智能与国家安全应用——舆情监测》的特邀报告。舆情指的是公众对于某一事件、话题、人物或组织等的社会观点、情感态度和行为倾向的总体表现,赵小兵教授从法律法规、舆情分析理论等多个角度展开,介绍了舆情分析的概念、作用及具体流程等内容,并总结比较了舆情分析两种模式的优劣。她最后重点介绍了团队开发的舆情监测自动分析平台,并呼吁在舆情监测中要关注更广泛的国际动态和媒体影响。
中央民族大学赵小兵教授作特邀报告
北京语言大学王莉宁研究员在题为《数字时代的语言资源保护开发》的特邀报告中指出,信息时代的数字化转型要求重新审视语言资源和语言数据的定义。语言不仅是交际工具,更是经济、安全和战略资源,她强调了建立语言资源库的重要性及其潜在应用,并展示了1802个调查点的田野记录和数字化存储,分享了建设的中国语言资源知识图谱、语言博物馆等方面的探索,期待与专家们的深入交流与合作,共同推动语言资源的保护与发展,并呼吁大家共同关注语言学与数字化结合的发展。
北京语言大学王莉宁研究员作特邀报告
中国人民大学代文林副教授在题为《一类适用于连续时间动态网络的社区 Hawkes 模型》的特邀报告中指出,需将数据科学应用于科学研究中,要更加关注把数据科学与人文社科研究相结合,才能真正体现其价值。他认为数据科学为人文社科提供的服务,包括数据处理、社会行为研究和网络结构分析等,这些都是当今研究的重要方向。之后他介绍了与不同学科的合作实例,展示了数据科学在社会学、健康政策、农业经济等多个方面的应用潜力。他表示,希望通过这些探索和经验分享,使数据科学在人文社科交叉领域取得更大的进展。
中国人民大学代文林副教授作特邀报告
北京大学苏祺长聘副教授作了题为《文化遗产数字化整理与文化演化路径探析》的特邀报告。她所在的研究团队致力于将自动化技术与人文学科结合,将研究重点扩展到金石碑刻等文物的普及和传承,主要研究工作包括数字化和基于已有数字资源研究两个层面。她提出利用多模态模型结合视觉与文本信息进行文字修复,提高准确率。她还进一步探讨文本间的互文性,通过识别文本连接,分析思想流派的传承与影响。她指出,语言是研究思想观念和文化演变的重要对象,通过数字化手段和云智能技术,建立语言与社会思想文化因素之间的多维度关联,为揭示语言背后的隐含信息提供有力支持。
北京大学苏祺长聘副教授作特邀报告
科大讯飞有限责任公司邵鹏飞研究员作了题为《大模型背景下的低资源语言数据处理探讨》的报告,报告内容涵盖了大模型的进展、语音识别大模型的框架,自动标注的应用、低资源语言处理探讨等几个关键点,重点阐释识别模型whisper在多种任务上的优势,尤其是wav2vec在低资源语言IPA转写的作用。还探讨了模型的局限性,提出未来需关注数据质量和微调策略。指出大模型技术在合成翻译、识别任务上的应用价值,使民族语言和方言的标注与处理有了新思路。
科大讯飞有限责任公司邵鹏飞研究员作特邀报告
内蒙古师范大学白双成研究员作了题为《清代蒙古文档案史料文本化》的汇报。他介绍了研究清代蒙古文档案的识别与分析,尤其强调了识别过程中面临的特殊挑战,包括印刷体、手写体和产品文字的识别,项目的最终目标是实现清代档案的系统化和结构化处理,提升文献研究的效率和准确性。他强调,尽管面临技术和方法上的困难,但通过团队的共同努力与技术的持续进步,必将推动低资源语言的识别技术发展,为研究清代历史和文化提供重要支持。
内蒙古师范大学白双成研究员作报告
华中师范大学沈威副教授在题为《提升生成式大语言模型能力的若干方法》的汇报中认为,生成式模型与人类学习有本质上的相似性在于通过学习来输出知识。在报告中,他强调了三大方面:提示词的重要性及编写原则、检索增强生成的优化方法在语言学中的应用、智能体的构建及其应用。他指出,未来应更加关注如何通过优化提示词、强化检索策略和智能体设计来提升生成式大语言模型的应用效果和实用价值。
华中师范大学沈威副教授作报告
华中科技大学唐旭日教授在题为《大规模汉语动词搭配构式知识库的自动获取》的汇报中探讨了动词知识库的研究进展,指出传统的动词知识库信息承载不足、深度学习模型在可信度和可解读性上仍有不足,关注点应该突出文化背景对语言理解的重要性。他介绍了搭配构式的形式化处理,强调其在动词研究中的应用价值,认为搭配构式不仅是对现有知识库的补充,也是探索语言文化特征的途径。
华中科技大学唐旭日教授作报告
金陵科技学院张松松教授作了题为《认知语言学中的识解:溯源、维度、影响及前景》的汇报,提出谓词框架是计算机理解语言和生成语言的关键要素,动词的多义性和语境依赖性是理解语言表达的核心,构建基于谓词框架的英汉语知识体系十分必要。他总结了研究思路及框架,希望能通过系统全面的对比,发掘汉英时空概念化的差异,从而为语言信息处理提供更加成熟的理论成果。
金陵科技学院张松松教授作报告
广西师范大学出版社马艳超老师在题为《广西师范大学珍稀文献数字资源知识服务平台建设》的汇报中认为,成功的古籍数据库需要四个关键要素:数据来源、信息挖掘、授权机制和商业运营。他指出,古籍的出版和使用仍面临信息壁垒,国内图书馆尚未形成系统的授权机制,为数据库建设带来了挑战。此外,古籍普及的准确性与专业人员在数据整理和文本标注中的作用密切相关,他呼吁专业人士加强合作,以推动古籍数字化进程,提升古籍研究的效率和效果。
广西师范大学出版社马艳超副编审报告
中国民族语言学会民族语言资源与计算人文专委会秘书长、民族所安波副研究员全面介绍了民族语言文化行为实验研究室的研究规划、研究方法与手段以及新近取得的系列研究成果。民族语言文化行为实验研究室是社科院二类新文科实验室,在多学科人才队伍建设和交叉学科研究成果方面都体现出新文科和文科实验室的特点,一些经验值得推广。
民族所安波副研究员作报告
南京师范大学文学院李斌教授在题为《计算人文与古籍智能》的汇报中提出,信息量对于语言理解和生成两大过程的建模以及大语言模型技术对于语言学理论创新具有很大的启示意义。他分析了语言研究面临的瓶颈,如伦理问题、隐私限制和技术制约,并指出语言数据的结构化问题需要领域专家的深厚积累。最后,他呼吁学术界加强国际合作与交流,以提升国际话语权,推动学科的整体发展。
南京师范大学文学院李斌教授作报告
讨论环节中,参会专家积极交流学术见解,大家一致认为人工智能和大数据的发展为语言学研究提供了新机遇。同时强调教育和信息技术的结合,以促进语言和文化的传承与发展。各方呼吁加强跨学科合作,共同推动民族语言资源的建设与应用。
闭幕式环节,龙从军研究员作了题为《民族文字文献数智化的时代价值》的演讲,他从民族文字促进数字化技术发展、提升民族文献的保护利用、促进民族文献资源共享、推动中华民族共有精神家园构建、拓展交叉学科研究新场域五个方面讨论了研究民族文字文献的时代价值。他指出民族语言资源建设不仅可以促进各民族相互依存、深刻交流,更促进挖掘语言文字的多样性成果,具有难以估量的价值。此次研讨会目的不仅是汇报学术成果,也是交流信息、互通有无,推动形成合作共同体,希望通过本次大会推动民族语言文字文献研究的新发展。
会议代表合影