机器学习探微古文字、数字档案留存古城风貌……5月16日,南京大学举办“数智赋能中华文明研究”成果展示会,中国思想家大模型、人工智能古文字析解模型、中华古城数字图谱工程项目等一批阶段性成果集中亮相。
长期以来,对古文字的图像识别因文本载体多样、材料时间跨度大而不够稳定,识别工具遇到未见过的字还会“罢工”。能否让机器像人类一样“读懂”古文字?南京大学文学院助理研究员聂菲携团队提出“动态拆解”思路:“人类分析古文字时,会先拆分构件,再结合上下文释义。我们要让机器模仿这一思维过程,从‘知其形’迈向‘知,其所以形’。”基于此,团队邀请专家手写古文字基础构件,用计算机记录笔顺、笔势等动态数据,随后结合深度强化学习训练机器理解“先写哪笔、后写哪笔”的逻辑,形成人工智能古文字析解模型,最终在验证过程中以“书写复现”验证模型对文字构件的理解能力。目前,该模型已录入万余条字形书写数据,迭代了数个版本,现能对古文字的简单构件做出正确拆分,团队构想初步实现。
“长期以来,历史研究面临三重文献使用困境。”南京大学历史学院准聘助理教授金伯文的经历,让众多学者感同身受,“其一,低质量文献的认读焦虑——如扫描模糊的手稿、磨损严重的古籍,传统工具识别率低,常导致信息缺失;其二,跨语种文献的处理门槛——历史学者难以掌握多语言技能,所以当面对小语种文献时往往手足无措;其三,海量文献的检索困境——传统关键词检索难以精准匹配语义,导致核心议题相关文献的筛选效率低下。”
“大语言模型为破解这些难题提供了可能。”金伯文介绍,团队开发的数智多语种文献处理平台,基于大模型、增强识别技术,提升模糊手稿、破损古籍的识别率,同时支持多语种文献翻译,还可以自动扩展语种关键词,支持跨语种检索。在他的演示下,一份清光绪年间的地契内容被准确识别。金伯文说,平台对波斯语、越南语等小语种也能进行高效处理。
中国大地上众多的历史文化城镇、遗址,见证着连绵不绝、亘古弥新的中华文脉。“历史文化遗产保护是城市更新的灵魂,我们为古城建立‘数字档案’,让历史空间在数字时代‘可感知、可追溯’。”南京大学地理与海洋科学学院副教授陈刚团队去年启动“中华古城数字图谱建设工程”,开展古城历史地理信息基础平台建设,构建全国古城数字档案。团队通过遥感影像、卫星地图、现场走访等方式,摸排清楚各地古城的地形地势、路网分布、城市布局、重点建筑等情况,并依照相关信息绘制文化地图。
陈刚团队第一阶段以陕西省咸阳市、河南省洛阳市等51个县(市、区)为研究区,集中开展老城范围识别与专题制图,编绘《中华古城数字图谱集成工程·历史影像地图集(一期)》,收录专题影像地图200余幅。在第二阶段,团队集中开展陕西、河南、江苏三省全域的历史遥感影像处理与分析,今年3月末完成约300个县(市、区)的老城历史影像地图编绘,涉及1200幅历史影像地图的制图与建库,为古城系统性保护与创新性传承提供大数据支撑。
当天,南京大学历史学院副院长、教授王涛还推介了“子曰:中国思想家大模型”。该模型由南京大学中华文明数智创新实验室团队研发,以南京大学《中国思想家评传丛书》为底座,基于DeepSeek等开源大模型建立了自主知识库,用户可借此实现与“孔子”等思想家对话。
“从甲骨文的千年密码到AI模型的智能解析,从古城墙的斑驳光影到数字图谱的精准复原,数智技术正在重塑我们理解文明的方式。”南京大学党委副书记陈云松表示,依托南京大学中华文明数智创新实验室,学校打破学科壁垒,将人工智能、大数据等技术嵌入文明研究的核心领域,将技术创新与文化传承有机结合,将学术研究与国家战略紧密结合,“这是南大新文科建设的又一个阶段性起点。”