History of Sinology/zh/Chapter 30
第三十章:数字人文与汉学研究的未来
1. 引言
中国研究历来受到用于获取和分析中国文本之技术的塑造。造纸术的发明、雕版印刷的发展、大型类书和丛书的编纂——每一次技术进步都扩大了学者可及的文本材料范围,并改变了他们用以研究这些材料的方法。二十世纪末和二十一世纪初的数字革命代表了这些变革中最新的——也可以说是最深远的——一次。
数字技术从两个根本方面改变了汉学。首先,它们使世界各地的学者得以免费获取前所未有的大量中国文本材料。中国哲学书电子化计划(Ctext)、中华电子佛典协会(CBETA)、中国历史地理信息系统(CHGIS)等数据库将过去需要多年奔赴专业图书馆和档案馆才能获得的资源送到了学者的指尖。其次,它们提供了分析这些材料的新工具——这些工具能够以远超任何个体学者之能力的速度和规模来检索、排序、比较、标注和可视化文本数据。
本章概述可供汉学家使用的主要数字资源和工具,考察计算方法对中国历史和文学研究的方法论影响,并审视人工智能为汉学研究未来带来的挑战与可能。
2. 数字文本数据库
中国哲学书电子化计划由Donald Sturgeon创建并维护,是最重要的开放获取前现代中国文本数字图书馆。它提供了几乎整个传统中国文献库的全文检索,包括儒家和道家经典、历代正史、主要哲学文本以及大量文学、法律和行政文献。所有文本均可全文检索、交叉引用,并配有平行译文和注释。[1]
在Ctext出现之前,一位希望追踪某一特定短语在中国文学传统中演变的学者,需要查阅数十种印刷版本——这一过程可能耗时数周乃至数月。如今同样的检索只需数秒即可完成。这重塑了语文学研究的实践,使得辨识互文联系、追踪概念和词汇的演变、以前所未有的效率验证文本传承的准确性成为可能。Ctext还提供了应用程序接口(API),使学者能够以编程方式访问其数据,从而开展文本挖掘研究,分析整个前现代中国文学语料库中的词语使用模式和语义变迁。[2]
中华电子佛典协会(CBETA)1998年在台湾成立,已将整部中国佛教大藏经数字化——这是一部包含数千部经文、注疏和论著的巨型文献集。大藏经的庞大体量——超过一亿汉字——使得任何个体学者都不可能阅读其中的大部分。数字检索工具现在使学者能够定位特定段落、辨识引用和典故、追踪思想在不同文本之间的传播,并对词汇和文体进行量化分析。[3]文本的数字化不仅是一种便利,更是一种方法论转型:当文本以数字形式存在时,它们可以通过检索、排序、比较和分析的方式揭示顺序阅读所无法发现的模式和联系。
中国历史地理信息系统(CHGIS)是哈佛大学和复旦大学于2001年合作启动的项目,提供了从公元前221年至公元1911年的居民点和历代行政区划的地理数据库。它使学者能够将历史数据映射到地理空间上,揭示叙事记述中往往被遮蔽的中国历史的空间维度。CHGIS对行政史、人口变迁以及文学和文化生产地理学的研究尤为重要。[4]
MARKUS平台由莱顿大学的魏希德(Hilde De Weerdt)开发,是一种文本标注和分析工具,使历史学家能够通过自动识别和标记中国文本中的人名、地名、日期和官职来从一手文献中构建数据集。[5]DocuSky由台湾大学开发,提供了一个类似但功能更广的个人数字人文研究平台,其灵活架构适用于从单部文学作品的研究到大规模历史语料分析的各类项目。[6]这两个平台使数字人文方法惠及了那些主要专长在中国语言和历史而非计算机科学领域的学者。
中国历代人物传记资料库(CBDB)是哈佛大学、中央研究院和北京大学的合作项目,提供了约500,000位中国历史人物的结构化传记数据,包括亲属关系、社会交往、官职任免以及籍贯和活动地点等信息。CBDB开辟了群体传记学(prosopography)领域,使学者能够提出用传统方法无法回答的问题:宋代科举及第者的地理分布如何?明代亲族网络如何影响政治仕途?这些问题需要处理超出任何个体学者能力的大型数据集,但借助CBDB提供的计算工具即可得到处理。[7]
3. 人工智能与古典中文
大型语言模型(LLMs)——包括GPT-4、Claude以及专门构建的WenyanGPT等模型——的迅速发展,激发了学界对其应用于古典中文的强烈兴趣。这些模型在自然语言处理方面展示了显著能力,它们在古典中文领域的应用有望加速汉学研究的多个方面:自动翻译、实体识别、文本对比以及典故和互文联系的辨识。[8]
WenyanGPT是一个2025年发布的专门用于古典中文任务的语言模型,其训练专门基于古典中文文本,旨在处理这种语言的独特特征——没有标点、极端的一词多义、依赖语境来消除歧义,以及典故和引用的密集网络。[9]
尽管取得了这些进展,重大挑战依然存在。正如第22章所讨论的,古典中文给自动处理带来了艰巨的困难。这些困难不仅是技术性的,更是根本性的智识问题:它们反映了古典中文作为一种语言的本质——它并非为高效沟通而设计,而是为了美学和哲学表达,其中多义性和典故性是特色而非缺陷。当前的人工智能系统能够以越来越高的准确度处理古典中文文本,但无法以人类学术研究所需的深度和敏感性来诠释它们。它们能以合理的可靠性识别命名实体,但无法评判这些实体在其历史语境中的意义。它们能以尚可的准确度翻译单个句子,但无法捕捉原文的文学品质、哲学深度或文化共鸣。
人工智能在汉学研究中最具建设性的应用方式可能是协作式而非替代式的。人工智能工具可以充当研究助手,执行文本处理的例行任务——分词、实体识别、初步翻译、参考文献核查——这些任务占用了汉学家大量的工作时间。它们还可以充当发现工具,在大型文本语料库中辨识传统阅读方式无法察觉的模式。但诠释性工作——对意义、重要性和质量的评判——仍是人类学术的领地。这种协作模式在实践中已开始形成:学者使用数字检索工具定位相关段落,运用传统语文学方法加以分析,使用人工智能翻译生成初稿,然后凭借自身的语言和文化知识对这些译稿进行修订。
4. 中国文学的机器翻译
近期的基准测试研究评估了大型语言模型在翻译古典中国诗歌方面的表现,考察了充分性(忠实于原意)、流畅性(译文的自然度)和优美性(文学品质)。[10]结果颇有启发。当前的大型语言模型在充分性和流畅性上取得了相当高的分数,但在优美性上始终不足——译文缺乏区分优秀人工翻译与尚可机器译文的文学品质。这一差距反映了一个根本性局限:这些系统能处理语言模式但无法体味审美品质。它们能翻译诗歌的指称内容,但无法传达其音韵、意象和情感肌理。
现代中文与古典中文之间的机器翻译性能差距依然显著。现代中文语法较为规范且拥有大量平行训练数据,适合神经机器翻译。古典中文则因其截然不同的语法、极端的一词多义和文化密度而继续构成严峻挑战。2025年发表于《Scientific Reports》的一项研究提出了一种多智能体框架,将翻译过程分解为三个阶段——词级释义、段落级生成和多维审校。该方法相对单一模型方法提升了翻译质量,但译文仍需大量人工后编辑才能达到学术标准。[11]
对汉学实践而言,其影响喜忧参半。人工智能翻译工具可以极大地加速那些具有重要历史价值但因翻译繁琐而鲜受学术关注的例行文本——行政文书、法典、技术专论——的翻译。然而,文学和哲学文本的翻译——那些传统上处于汉学翻译核心的文本——仍然需要当前人工智能系统所缺乏的深厚文化和审美知识。风险在于,机器翻译的可用性可能制造翻译已被"解决"的假象,从而降低学生习得真正语言能力的动力。机遇在于,机器翻译将使汉学家从例行工作中解放出来,使他们能够专注于翻译中最具智识价值且真正不可替代的诠释性和创造性维度。
5. 数字档案、开放获取与计算分析
数字汉学资源的开放获取运动是近年来最积极的进展之一。Ctext、CBETA和CBDB等主要数据库均为免费使用,消除了此前限制汉学研究材料获取的经济和制度障碍。这对发展中国家和规模较小的机构中可能缺乏专业馆藏的学者尤为有益。
历史档案的数字化——包括中国历代正史、地方志、科举档案、法律文书和私人信函——开辟了大量新的一手资料。中国历史文献数据库和清代宫中奏折数字化等项目使得过去需要长期驻留中国档案馆才能开展的研究成为可能。与此同时,数字获取也带来了新问题:数字化文本的质量参差不齐,元数据往往不完整或不可靠,材料的巨大体量可能鼓励广度而牺牲深度。数字工具所使"远读"(distant reading)取代一直是汉学研究基础的"细读"(close reading),是一个真实的风险。最具建设性的方法是将两者结合。
计算技术已被应用于中国文学和历史研究中日益广泛的课题。文体计量学——对文学风格的量化研究——被用于通过分析词频、句长和语法结构等模式来考察作者归属、年代判定和文本真伪等问题。[12]网络分析作为研究塑造中国文学和政治文化的社会及学术关系的工具已经兴起,对宋代和明代的研究尤其富有成果,因为丰富的传记数据库使得以前所未有的规模绘制社会网络成为可能。[13]GIS工具与历史数据库的结合使空间分析成为可能,揭示了中国文化生产的地理维度——文学活动在特定城市的集中、文学潮流沿贸易路线和行政网络的传播。
这些计算方法产生了真正的学术洞见,但也引发了方法论问题。量化方法能否捕捉使一个文本具有历史或文学意义的品质?网络分析能否解释为何一位诗人写出了伟大的诗歌,而另一位拥有类似社会关系的诗人却不能?答案是:计算方法是辨识模式和生成假设的强大工具,但无法替代诠释性工作。它们能告诉我们发生了什么,却不能告诉我们它为什么重要,或人们如何感受。
6. 人才培养、可持续性与未来
数字转向对新一代汉学家的培养具有深远影响。传统课程——古典中文、语文学方法、文本分析——仍然不可或缺,但已不再足够。研究生如今还需要数字方法的训练:如何有效使用文本数据库,如何设计计算分析,如何评估机器学习算法的结果。数所大学已开始开发整合汉学与数字训练的课程体系。2025年举办的中国-普林斯顿数字人文工作坊将汉学家和数字人文学者汇聚一堂,共同培训应用于中国历史和文学材料的计算方法。哈佛、莱顿和台湾大学也出现了类似的倡议。[14]
一个持续存在的挑战是数字资源的可持续性。数字数据库和工具需要持续的维护、更新和资金支持。当创建数据库的学者退休时,数据库可能废弃不用;当经费耗尽时,服务器可能被关闭。学术界尚未建立可靠的机制来确保数字汉学资源的长期保存和可及性。这不仅是一个技术问题,更是一个制度问题:数字人文项目通常需要开发阶段的启动资金,同时也需要持续的维护资金——这种模式与大多数学术机构以项目为基础的资助结构难以兼容。
数字技术还为国际学术合作创造了新的可能。中国和西方学者可以在共享数据库上协同工作,无需同处一地即可为共同平台做出贡献。这些合作有可能弥合中国与西方学术传统之间的鸿沟。与此同时,数据安全、知识产权和政治监控方面的顾虑可能使此类合作复杂化,尤其是考虑到第29章讨论的政治紧张局势。
从当前数字汉学的状况中可以得出的最重要结论是:计算方法补充但不能取代传统的人文学术研究。中国文本的阅读、诠释和翻译;历史语境的重建;文学品质的鉴赏;哲学意义的评判——这些活动需要一种不可化约的人类理解力,无论工具多么精密都无法被自动化。汉学研究的未来不在于在传统方法和计算方法之间做选择,而在于将两者结合起来。一位既能流利阅读古典中文并以洞察力加以诠释,又能运用数字工具检索、分析和可视化文本数据的学者,将比纯粹的语文学家或纯粹的数字人文学者装备更为精良。这一领域面临的挑战正在于培养这样的学者。
注释
参考文献
Bol, Peter K. "The China Historical GIS." Journal of Chinese History 4, no. 2 (2020).
De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.
Sturgeon, Donald. "The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, no. 1 (2021): 189–207.
"A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).
"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
脚注
- ↑ David B. Honey, Incense at the Altar: Pioneering Sinologists and the Development of Classical Chinese Philology(New Haven: American Oriental Society, 2001),序言,xxii。
- ↑ Honey, Incense at the Altar,序言,x。
- ↑ 张西平,讲座1,"西方汉学导论",第165—168页。
- ↑ Peter K. Bol, "The China Historical GIS," Journal of Chinese History 4, no. 2 (2020)。
- ↑ Hilde De Weerdt, "MARKUS: Text Analysis and Reading Platform," in Journal of Chinese History 4, no. 2 (2020);另参见芝加哥大学图书馆数字人文指南。
- ↑ Tu Hsiu-chih, "DocuSky, A Personal Digital Humanities Platform for Scholars," Journal of Chinese History 4, no. 2 (2020)。
- ↑ Peter K. Bol and Wen-chin Chang, "The China Biographical Database," in Digital Humanities and East Asian Studies (Leiden: Brill, 2020)。
- ↑ 参见本书第22章(翻译)关于人工智能翻译挑战的论述。
- ↑ "WenyanGPT: A Large Language Model for Classical Chinese Tasks," arXiv preprint (2025)。
- ↑ "Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance," Proceedings of EMNLP (2025)。
- ↑ "A Multi Agent Classical Chinese Translation Method Based on Large Language Models," Scientific Reports 15 (2025)。
- ↑ 参见Mark Edward Lewis and Curie Viragh, "Computational Stylistics and Chinese Literature," Journal of Chinese Literature and Culture 9, no. 1 (2022)。
- ↑ Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China (Cambridge: Harvard University Asia Center, 2015)。
- ↑ China-Princeton Digital Humanities Workshop 2025 (chinesedh2025.eas.princeton.edu)。