AI古籍语料库南京高校取得新突破|AI_新浪财经

转自：南京晨报

晨报讯（实习生奚琳芸南京晨报/爱南京记者黄阳阳）日前，南京农业大学传来喜讯，王东波教授团队在“语言计量与数字人文”暨第七届计量语言学学术研讨会上正式发布了基于《二十四史》及其现代汉语翻译文本构建的词性标注语料库。这一成果标志着AI在助推中国古代典籍数字化传播方面迈出了坚实的一步，让古籍中的智慧得以跨越时空，与现代文明进行深度对话。

据悉，该语料库是目前最大规模且经过精加工的古代汉语语料库，涵盖了《二十四史》的古代汉语语料共计1102657字，以及对应的现代汉语翻译语料1415311字，总体规模超过250万字，被誉为古代汉语版的“人民日报语料库”。

近年来，AI模型在多个领域大放异彩，但在古代汉语处理方面仍面临诸多挑战。现有的古代汉语语料库规模较小，标注深度有限，且难以实现与现代汉语的对照。王东波教授团队克服诸多困难，经过严谨的数据清洗、标注与对齐，运用先进的语言模型技术，从《二十四史全译》中萃取了高质量的双语对齐句子对。王东波教授告诉记者，为了构建这一跨语言词性标记集，团队综合了南京师范大学的先秦词性标记集和北京大学的人民日报语料词性标记集，并联合了南京大学、南京师范大学、南京理工大学及中国国家图书馆等多家单位的力量。经过多轮人工标注、审核以及语言模型与人工的双重校验，最终产出了3万余条同步词性标注的语料，有代表性地全面覆盖了《二十四史》的古代汉语与现代汉语翻译文本。

王东波团队的研究成果不仅填补了此前模型标注数据的短缺，更提供了高质量的指令微调语料，显著提升了大模型在古代汉语处理上的能力。这将为机器翻译、智能问答等应用场景提供更加精准的答案，同时也让大众能够更轻松地接触和理解古代文献，让沉睡在“故纸堆”中的文化瑰宝重新焕发活力。