这件事完成要花300年?它出手了!

这件事完成要花300年?它出手了!
2025年05月08日 14:22 科技日报

◎ 采写丨科技日报记者 杨雪

◎ 策划刘恕 李坤

1919年,胡适在《新青年》杂志上发起了著名的“整理国故”运动,旨在“研究问题、输入学理、整理国故、再造文明”。一个世纪过去了,整理古籍任务仍然艰巨。书卷浩如烟海,人才门槛高筑,无不令专家感叹:“想完成全部古书的整理,可能得300年。”

而当古老的文化载体遇见最年轻的技术手段,伟大的奇迹或许就会显现。在机器学习和成千上万志愿者助力下,一本本尘封的古书被一一翻开。

图片来源:视觉中国图片来源:视觉中国

近日,“我用AI校古籍——我是‘校书官’古籍大众智能整理计划(2025年)”(以下简称“我是‘校书官’”项目)在武汉大学启动。该项目吸纳了上万名志愿者,预计将在一年内整理数千万字的古籍,并将整理结果在“识典古籍”平台上向大众免费呈现。

如果说修复和整理古籍是与时间赛跑,AI就好比戴宗的“神行甲马”,实现了整理速度的几何级提升。

1

从小作坊到流水线,整理速度提升20倍

华东师范大学古典文献学在读博士生刘帅曾经怀疑过AI。2017年他用过古籍整理软件,感觉其颇为鸡肋。然而,2024年9月,当听到“我是‘校书官’”项目借助“识典古籍”平台,一个月整理了5000多万字的古籍时,他震惊了:“我一年能整理几十万字就很了不起了。”

“识典古籍”整合了国内顶尖AI研发团队的开发能力和北京大学深厚的学术积淀。古籍整理被拆分成许多环节,主要包括文字识别、文字校对、结构整理、标点校对等。这些环节借助AI,大大节省了人力。

打开“识典古籍”平台,上传一张古籍图片后,光学字符识别(OCR)技术将对图片中的人名、地名、书名、时间和职官,平台可以自动标记。对于OCR不确定的字,会用不同颜色标记出来,便于定位这些文字,然后参照底本修改。在文字精校环节,可以匹配两套不同的文本,在文字校勘环节,可以比较差异、撰写数字校勘记……

“识典古籍”阅读平台网页截图。“识典古籍”阅读平台网页截图。

北京大学数字人文中心副主任杨浩做过测试,AI自动标点准确率超90%,翻译古文也达到专家水平。“古籍标点是一大难点。”刘帅说,如今他遇到疑问,就会去对照“识典古籍”的自动标点——有点像围棋爱好者向AlphaGo学棋。

杨浩说,传统的古籍整理以出版为目的,正确率要求极高,相应门槛也高,即便古籍专业的学生也经常出错,难以独立承担项目。大部分项目都是一个专家负责一种书,从头做到尾,因此效率很低。

现在有了机器学习,AI在阅读大量人类成果后,对古文具备了相当的“语感”。在“我是‘校书官’”项目中,AI先初步整理古籍,逐字校对,再由大众志愿者来校对,最后把难点提交给专家。“AI改变了工作流程,分包制度降低了门槛,传统的手工作坊变成流水线工厂了。”刘帅说。

AI的应用让对古籍感兴趣的人都可以参与进来。“我是‘校书官’”项目依托“识典古籍”平台,由全国22所高校承办,现已有数以万计的学生报名,许多人的专业可能与古籍无关。在去年的“我是‘校书官’”项目中,志愿者按水平被分为大众组和进阶组,前者负责粗校,后者负责精校。大众组已粗校整理了1643部古籍,进阶组精校整理了共计2451万字。

2024年9月,刘帅也参加了“我是‘校书官’”项目,头一个月初步整理出200万字的古籍,这是过去速度的20倍。接下来他每天抽出两三个小时,一个月就整理完一部49万字难度颇大的古籍,而且整理质量很高。整个项目3个月,刘帅校点、标注、排版、审阅的书一共191种,总字数达500万以上。

2

辨识“庐山真面目”,正确率节节攀升

把古籍从图书馆库房搬到电子资源平台,实现整理速度几何级提升,主要归功于AI“识古”的智慧——它能读出黯淡缺损的古书,或解读晦涩难辨的符号。

以前,古书很难数字化。传统的文字识别软件是为打印材料设计的。对于识别古书,机器经常“傻眼”:一个字往往有不同写法,字体风格不一样,书中还有并非汉字的笔画符号。另外,古书经常有折痕和破损缺字,墨迹黯淡,这也是为什么各大图书馆的古籍数字化多年来进度缓慢、严重依赖人工的重要原因。

培育专业“识字匠”往往需要多年时间,但有了机器学习,一些有难度的辨识工作,可由AI代劳。

国际上,AI复原庞贝古卷的成就,让人们对其潜力充满信心。公元79年被火山灰掩埋的赫库兰尼姆莎草卷轴已经碳化,无法展开。通过CT影像,人们得到了卷轴上微弱的墨水痕迹图像,但仍然无法识别。3位年轻人通过机器学习技术,从图像里推断出超2000个字符,连起来是一段与伊壁鸠鲁哲学有关的文字。这一消息2024年发布后,让国际古典学界非常兴奋。

AI辨识那些尘封已久的破旧古籍,有点像AI修复老照片。2024年,“我是‘校书官’”项目采用AI技术修复上千年前的敦煌古卷《汉书·刑法志》。AI学习了原版古籍的文字、笔画风格和页面纹理,把缺损文字按原来的字体、色彩、背景修复还原,最大程度确保与原古卷一致。另一个AI项目则补全了残缺的《兰亭序》清晰样貌,其笔画细节遵照王羲之的技巧风格。

“我们设置了‘追溯原本’功能,有疑问的话可以一键找到原文进行人工比对、校准。”抖音集团企业社会责任部古籍项目产品负责人王宇介绍,他们正在针对识别手写字、异体字、复杂版式、插图等精进算法,力求不断提升正确率。

全国高等院校古籍整理研究工作委员会副秘书长吴国武说,提高AI水平还需要更优质的训练数据。比如,一些已有的整理本,版权在整理者、出版社。“要想提升AI辨识力,需进一步建立共享合作机制,促进数据的开发与利用。”

“识典古籍”阅读平台网页截图。“识典古籍”阅读平台网页截图。

目前,国内已有针对甲骨文整理识别的AI项目:通过阅读现存的海量甲骨文图像,AI整理出几千个甲骨文字符,并在不同甲骨文材料之间找到联系,为解读工作提供基础。

实际上,越是鲜有人问津的生僻符号,越适合AI展露身手。我国少数民族先后创制和使用过30多种古文字,国务院公布的六批《国家珍贵古籍名录》中,收录了少数民族古籍1133部,国家图书馆收藏的民族古文献就有18个文种,共34000多册件。这些古籍的数字化和整理工作更缺专业人才,也更需要AI的加持。“这些材料的数字化与整理,今后有望大量依靠AI来完成。”王宇说。

3

加快人才培养,让古籍走出“高阁”

国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册。我国从20世纪80年代就开始尝试古籍数字化,但受技术、资金、版权等因素限制,海量文献中实现数字化的不超过八万种,而且许多书只是完成了初步的影像扫描,真正实现文本数字化的不足四万种。

吴国武告诉记者,目前全国范围内专业从事古籍整理的人员仅有一万人左右。

海量古籍面前,现有的整理方式如同愚公移山。古籍整理专业人才匮乏,生产力低下,一直是阻碍“整理国故”进程的世纪难题。

百年前胡适痛感,古籍缺乏系统性导致“一般青年,对于中国本来的文化和学术,都缺乏研究的兴趣”,这一问题至今未得到很好解决。古籍研究仍是冷僻的学问,许多古籍从未向大众开放。

2022年,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》明确提出,推进古籍数字化。全国古籍整理出版规划领导小组印发的《2021—2035年国家古籍工作规划》则将“国家古籍数字化工程”列为四项重大工程之一,对相关工作进行详细规划。

“使用AI完成古籍整理的前期基础工作,效果很好。”吴国武把AI视为合作者,而不是简单的工具。在他看来,AI的加盟让全民得以了解甚至参与古籍整理这件事,可以说是广植“整理国故”的沃土。

例如,“识典古籍”平台已免费上线超16000部古籍资源,累计吸引上亿人次了解和阅读古籍,为1300余个外部团队的古籍整理工作提供帮助。这已成为文献学界近年来最瞩目的大事。

“识典古籍”阅读平台网页截图。“识典古籍”阅读平台网页截图。

2024年底,著名的古籍整理工程《儒藏》与“识典古籍”平台展开合作。《儒藏》是新中国成立以来最大规模的儒学典籍整理工程,旨在收录自先秦至清末的所有儒学文献,预计总体达到10亿字。它没有采取相对容易的影印方式,而是志在整理出便于现代人阅读的文本,这给参与项目的学者带来了难以想象的工作量。引入AI后,影印文献的整理标注将大大加速,相关整理成果也会公布在“识典古籍”平台上,实现全民共享。

“AI可以帮学者快速定位到需要的材料,还支持同时比对10个以内的校本,让专家把宝贵时间都用来干技术含量高的活儿。”王宇介绍。同时,“我是‘校书官’”项目的进阶组志愿者,也有机会与《儒藏》工程的专家团队交流。这个以在校生为主的项目,或许能使他们中的一些人未来走上“整理国故”的专业道路。

AI的加盟也创新了古籍整理人才培养模式。吴国武介绍,目前高校里古典文献专业大多开设了数字人文相关的交叉培养课程;有7所高校已经申请了数字人文的本科专业,古籍整理也是重要方向。“交叉融合专业培养出来的人才,未来有望填补古籍专业大模型的人才缺口。”

去年以来,国内许多著名图书馆、博物馆也积极引入AI技术,保护和挖掘自己的馆藏古典资源。国家图书馆藏现存最早版本的元大德三山郡庠刻本《通志》、首都图书馆藏《皇朝礼器图》、浙江图书馆藏文澜阁《四库全书》……一系列珍贵典籍,将通过AI的修复,重光临世。

面对这一波热潮,刘帅很兴奋。他希望AI吸引更多的爱好者尝试整理古籍。“公众对古籍的关注、热爱和参与程度,决定了古籍整理的天花板有多高。我觉得自己站在一个时代改变的前夜。”他说。

AI的速度,人类无法企及,刘帅也曾担忧过自己会不会失业。但如今他认为,AI的“识古”基础是人工整理的高质量数据,无论技术如何发展,仍需要人去参透古书的秘密,使文化遗产薪火相传。

“降低古籍的阅读和整理门槛,始终是文献学的核心目的。”刘帅说。

记者手记 

AI激活古籍,也激活了慕古之心

杨雪

尽管高中语文不算差,古文阅读仍然让我头疼。阅读试卷上的古文节选都颇为吃力,更不敢研究繁难古奥的原本了。

古籍传播受困于“三重门”:古字难认,古文难懂,古书难寻。可喜的是,AI正在拆除这“三重门”,让沉睡在藏书阁的古书,转化成人人可享用的文化盛宴。

机器的嘀嗒声中,一卷卷斑驳的文卷正被扫描成像,虫蛀严重的刻本被逐帧修复,墨迹深浅与刻本刀痕高度还原……一个古籍修整的黄金时代已经来临。未来几年,将有成千上万册古籍被纳入大众的知识图谱,这必将提升普通人对古老文明的认知与感情。

目前全国古籍修复从业者仅千人。去年,国家图书馆联合抖音集团等推出微短剧《重回永乐大典》,讲述了尘封在古籍中的“书灵”辅助初入行“小白”一路成长为优秀古籍修复师的故事。借微短剧的热度,古籍修复师这个冷门职业被呈现在大众特别是年轻人面前。

“识典古籍”阅读平台网页截图。“识典古籍”阅读平台网页截图。

古籍修复一般需经过10年以上的专业训练,用毛笔、糨糊、镊子等工具完成“一页一策”的修复,工作很精细,过程很慢。如今,AI的加持打开了古籍整理事业新局面,也希望能够由此让更多人看见古籍修复师“择一事终一生”的匠人精神,给这个人才稀缺的“冷板凳”一些照拂。

AI修复和整理古籍带来的社会效应,让古籍真正走向大众,降低了普通人摩挲中华文脉的门槛。不论是用AI修复敦煌壁画,还是拼接文书残片,不论是机器学习理解甲骨文的占卜逻辑,还是用知识图谱重现《山海经》的地理脉络,抑或是化典籍为视频,这些工作让我们看到《齐民要术》的劳动细节,大宋汴梁城的日常生活……就像钱钟书先生曾说过:“古典诚然是过去的东西,但是我们的兴趣和研究是现代的。”

AI激活了古籍,也种下热爱古老文化的种子。这些种子不再休眠于古老的地层之下,而是长成我们精神家园里的常青藤。

版面阅读

科技日报•深瞳工作室出品

文中图片除注明外均由受访者提供

版面编辑丨姜靖

版面审核丨徐玢

微信编辑丨王璠

刘帅
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片