History of Sinology/zh-tw/Chapter 30
第三十章:數位人文與漢學研究的未來
1. 引言
中國研究一向受到文本獲取和分析技術的深刻影響。造紙術的發明、雕版印刷的發展、大型類書和叢書的編纂——每一次進步都拓展了學者可用的文本資料範圍,改變了他們的研究方法。二十世紀末至二十一世紀初的數位革命代表了這些變革中最近的——或許也是影響最為深遠的——一次。
數位技術以兩種根本方式改變了漢學。第一,它使前所未有的大量中國文本資料向全世界學者免費開放。中國哲學書電子化計劃(Ctext)、中華電子佛典協會(CBETA)和中國歷史地理資訊系統(CHGIS)等數據庫,為學者提供了過去需要數年往返專業圖書館和檔案館才能獲取的資源。第二,它提供了分析這些資料的新工具——能夠以遠超任何個人學者能力的速度和規模對文本數據進行搜索、排序、比較、標注和可視化。
本章概覽漢學家可用的主要數位資源和工具,探討計算方法對中國歷史和文學研究的方法論意義,並考察人工智能為漢學研究未來所帶來的挑戰與可能性。
2. 數位文本數據庫
中國哲學書電子化計劃(Chinese Text Project),由司徒琳(Donald Sturgeon)創建並維護,是最重要的前近代中國文本開放數位圖書館。它提供幾乎涵蓋傳統中國文獻全部的全文存取,包括儒家和道家經典、正史、主要哲學文本,以及大量的文學、法律和行政著述。所有文本均可全文檢索,配有交叉引用、平行翻譯和注釋。[1]
在Ctext出現之前,一位希望追溯某一特定語句在中國文學傳統中流變的學者,需要查閱數十種印刷版本,這一過程可能需要數週甚至數月。同樣的搜索現在可以在幾秒鐘內完成。這徹底重塑了語文學研究的實踐,使得識別互文關聯、追溯概念和詞彙的演變、驗證文本傳承的準確性成為可能,其效率在過去難以想像。Ctext還提供應用程式介面(API),使學者能夠以程式方式存取其數據,從而支持文本挖掘研究,分析整個前近代中國文學語料庫中的用詞模式和語義變遷。[2]
中華電子佛典協會(CBETA),1998年成立於台灣,已將整部中國佛教大藏經數位化——這是一部包含數千部經典、注疏和論著的龐大彙集。大藏經的巨大規模——超過一億個漢字——使得任何個人學者都不可能閱讀其中的大部分。數位搜索工具現在使學者能夠定位特定段落、識別引文和典故、追溯思想在不同文本間的傳播,並對詞彙和風格進行量化分析。[3]文本的數位化不僅是便利,更是一種方法論的轉變:當文本以數位形式存在時,可以通過搜索、排序、比較和分析來揭示順序閱讀所無法發現的模式和關聯。
中國歷史地理資訊系統(CHGIS),是哈佛大學和復旦大學合作項目,2001年啟動,提供了一個涵蓋公元前221年至公元1911年的居民點和歷史行政區劃的地理數據庫。它使學者能夠將歷史數據映射到地理空間上,揭示在敘事記載中往往被遮蔽的中國歷史的空間維度。CHGIS對行政史、人口變遷以及文學和文化生產的地理研究尤為有價值。[4]
MARKUS平台,由萊頓大學的魏希德(Hilde De Weerdt)開發,是一個文本標注和分析工具,使歷史學家能夠通過自動識別和標記中國文本中的人名、地名、日期和官銜,從原始文獻中構建數據集。[5]DocuSky,由國立臺灣大學開發,提供了一個類似但範圍更廣的個人數位人文研究平台,其靈活的架構適用於從個別文學作品的研究到歷史語料庫的大規模分析等各類項目。[6]這兩個平台使主要專長在中國語言和歷史而非計算機科學的學者也能使用數位人文方法。
中國歷代人物傳記資料庫(CBDB),是哈佛大學、中央研究院和北京大學的合作項目,提供了約五十萬名中國歷史人物的結構化傳記數據。它包含親屬關係、社會交往、官職、籍貫和活動地等資訊。CBDB開拓了群體傳記學(prosopography)領域,使學者能夠提出傳統方法無法回答的問題:宋代科舉及第者的地理分布如何?明代的親族網絡如何塑造了政治仕途?這些問題需要處理超越任何個人學者能力的大型數據集,但可以借助CBDB提供的計算工具加以解決。[7]
3. 人工智能與古典中文
大型語言模型(LLMs)的迅速發展——包括GPT-4、Claude以及專門構建的WenyanGPT等模型——引發了人們對其在古典中文領域應用的濃厚興趣。這些模型在自然語言處理方面展現了顯著能力,將其應用於古典中文可以加速漢學研究的多個方面:自動翻譯、實體識別、文本比較、典故和互文關聯的識別。[8]
WenyanGPT是一個專為古典中文任務設計的語言模型,於2025年發布,專門在古典中文文本上訓練,旨在處理該語言的獨特特徵——缺乏標點、極度多義、依賴語境消歧,以及典故和引文構成的緊密網絡。[9]
儘管取得了這些進展,重大挑戰依然存在。正如第二十二章所討論的,古典中文對自動處理構成了艱巨的困難。這些困難不僅僅是技術性的,而是根本上屬於學術性的:它們反映了古典中文作為一種語言的本質——它不是為了高效溝通而設計的,而是為了美學和哲學表達,其中歧義和含蓄是特色而非缺陷。當前的人工智能系統能夠以日益提高的準確度處理古典中文文本,但無法以人文研究所要求的深度和敏感度加以詮釋。它們能以合理的可靠度識別命名實體,但無法評估這些實體在其歷史語境中的意義。它們能以尚可的準確度翻譯單個句子,但無法傳達原文的文學品質、哲學深度或文化韻味。
在漢學研究中運用人工智能最具成效的方式,很可能是協作式而非替代式的。人工智能工具可以充當研究助手,執行文本處理的常規任務——分詞、實體識別、初步翻譯、引文核查——這些任務佔據了漢學家大量時間。它們還可以充當發現工具,在大型文本語料庫中識別傳統閱讀所無法發現的模式。但詮釋工作——對意義、重要性和品質的評判——仍然屬於人文學術的領域。這種協作模式已在實踐中逐漸形成:學者使用數位搜索工具定位相關段落,運用傳統語文學方法加以分析,使用機器翻譯生成初步譯文,然後以自身的語言和文化知識加以修訂。
4. 中國文學的機器翻譯
近期的基準測試研究評估了大型語言模型在古典中國詩歌翻譯方面的表現,從準確性(對意義的忠實度)、流暢度(表達的自然度)和優雅度(文學品質)三個維度進行衡量。[10]結果富有啟示。當前的大型語言模型在準確性和流暢度方面達到了相當高的水準,但在優雅度方面始終不足——譯文缺乏區分優秀人工翻譯與堪用機器譯文的文學品質。這一差距反映了一個根本性的局限:這些系統能夠處理語言模式,但無法欣賞美學品質。它們能翻譯一首詩的指稱內容,卻無法傳達其音韻、意象和情感質地。
現代中文與古典中文機器翻譯之間的品質差距仍然相當大。現代中文語法相對規則,且有大量平行訓練數據,非常適合神經機器翻譯。古典中文語法截然不同,多義性極強,文化密度極高,繼續構成嚴峻挑戰。2025年發表於《科學報告》(Scientific Reports)的一項研究提出了一個多智能體框架,將翻譯過程分解為三個階段——詞級詮釋、段落級生成和多維度審校。這一方法較單模型方法提高了翻譯品質,但譯文仍需大量人工後期編輯才能達到學術標準。[11]
對漢學實踐而言,其意義是複雜的。人工智能翻譯工具可以大幅加速常規文本的翻譯——行政文書、法律典章、技術論著——這些文本具有重大歷史價值,卻因翻譯工作的單調乏味而鮮受學者關注。然而,文學和哲學文本——傳統上處於漢學翻譯核心的文本——的翻譯仍然需要當前人工智能系統所欠缺的深厚文化和美學知識。風險在於,機器翻譯的普及可能製造翻譯問題已獲解決的假象,降低學生獲取真正語言能力的動力。機遇在於,機器翻譯將使漢學家從常規工作中解放出來,專注於翻譯中最具學術價值且真正不可替代的詮釋性和創造性層面。
5. 數位檔案、開放取用與計算分析
數位漢學資源的開放取用運動是近年來最為積極的發展之一。Ctext、CBETA、CBDB等主要數據庫均可免費使用,消除了過去限制漢學研究資料取用的經濟和制度障礙。這對發展中國家和規模較小的學術機構的學者尤為有利,因為他們可能缺乏專業的圖書館館藏。
歷史檔案的數位化——包括中國正史、方志、科舉記錄、法律文書和私人書信——開放了大量新的原始資料。中國歷史文獻數據庫和數位化的清代宮廷奏摺等項目,使得過去需要長期前往中國檔案館才能進行的研究成為可能。與此同時,數位取用也引發了新的問題:數位化文本的品質參差不齊,元數據往往不完整或不可靠,而資料的龐大體量可能鼓勵廣度而犧牲深度。數位工具所實現的「遠讀」確有取代始終是漢學研究基礎的「細讀」之風險。最具成效的方法是兩者兼採。
計算技術已被應用於中國文學和歷史研究中日益廣泛的問題。文體計量分析(stylometry)——對文學風格的量化研究——被用來通過分析詞頻、句長和語法結構的模式,探討作者歸屬、年代判定和文本真偽等問題。[12]網絡分析已成為研究塑造中國文學和政治文化的社會與學術關係的工具,在宋代和明代研究中尤為豐碩,因為豐富的傳記數據庫使得以前所未有的規模繪製社會網絡成為可能。[13]地理資訊系統(GIS)工具與歷史數據庫的結合,使得空間分析成為可能,揭示了中國文化生產的地理維度——文學活動在特定城市的集中、文學風潮沿貿易路線和行政網絡的傳播。
這些計算方法產出了真正的學術洞見,但也提出了方法論問題。量化方法能否捕捉使一部文本具有歷史或文學重要性的品質?網絡分析能否解釋為什麼一位詩人創作了偉大的詩歌,而另一位擁有類似社會關係的詩人卻未能如此?答案是,計算方法是識別模式和生成假說的強大工具,但不能替代詮釋性工作。它們能告訴我們發生了什麼,但不能告訴我們為什麼重要或感受如何。
6. 人才培養、可持續性與未來
數位轉向對下一代漢學家的培養有著深遠影響。傳統的課程設置——古典中文、語文學方法、文本分析——仍然必不可少,但已不再充分。研究生現在還需要接受數位方法的訓練:如何有效使用文本數據庫、如何設計計算分析、如何評估機器學習算法的結果。多所大學已開始開發將漢學與數位訓練整合在一起的課程。2025年舉辦的中國—普林斯頓數位人文工作坊,匯集了漢學家和數位人文學者,進行運用計算方法研究中國歷史和文學材料的協同訓練。類似的舉措也在哈佛大學、萊頓大學和國立臺灣大學出現。[14]
數位資源的可持續性是一個持續性的挑戰。數位數據庫和工具需要持續的維護、更新和經費。當創建數據庫的學者退休時,數據庫可能陷入閒置;當經費耗盡時,伺服器可能被關閉。學術界尚未建立確保數位漢學資源長期保存和可用性的可靠機制。這一問題不僅是技術性的,也是制度性的:數位人文項目通常需要用於開發的初始經費和用於維護的持續經費,這一模式與大多數學術機構以項目為基礎的經費結構難以契合。
數位技術也為國際學術合作創造了新的可能性。中國和西方學者可以在共享數據庫上協同工作,無需實際的地理鄰近即可為共同平台做出貢獻。這些合作有望彌合中國與西方學術傳統之間的鴻溝。與此同時,對數據安全、知識產權和政治監控的擔憂可能使這些合作變得複雜,尤其是考慮到第二十九章所討論的政治緊張局勢。
從數位漢學的現狀可以得出的最重要結論是:計算方法補充但不能替代傳統的人文學術。閱讀、詮釋和翻譯中國文本;重建歷史語境;欣賞文學品質;評估哲學意義——這些活動需要一種不可化約為機器的人類理解,無論工具變得多麼精密,都無法將其自動化。漢學研究的未來不在於在傳統方法和計算方法之間做出選擇,而在於將兩者結合。一位能夠流利閱讀古典中文並富有洞察力地加以詮釋,同時又能運用數位工具進行搜索、分析和數據可視化的學者,將比純粹的語文學家或純粹的數位人文學者都更有優勢。該領域面臨的挑戰正是培養這樣的學者。
注釋
參考書目
Bol, Peter K. "The China Historical GIS." Journal of Chinese History 4, no. 2 (2020).
De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.
Sturgeon, Donald. "The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, no. 1 (2021): 189–207.
"A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).
"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
參考文獻
- ↑ David B. Honey, Incense at the Altar: Pioneering Sinologists and the Development of Classical Chinese Philology (New Haven: American Oriental Society, 2001), preface, xxii.
- ↑ Honey, Incense at the Altar, preface, x.
- ↑ Zhang Xiping, lecture 1, "Introduction to Western Sinology Studies," pp. 165–168.
- ↑ Peter K. Bol, "The China Historical GIS," Journal of Chinese History 4, no. 2 (2020).
- ↑ Hilde De Weerdt, "MARKUS: Text Analysis and Reading Platform," in Journal of Chinese History 4, no. 2 (2020); see also the Digital Humanities guide at University of Chicago Library.
- ↑ Tu Hsiu-chih, "DocuSky, A Personal Digital Humanities Platform for Scholars," Journal of Chinese History 4, no. 2 (2020).
- ↑ Peter K. Bol and Wen-chin Chang, "The China Biographical Database," in Digital Humanities and East Asian Studies (Leiden: Brill, 2020).
- ↑ See Chapter 22 (Translation) of this volume on AI translation challenges.
- ↑ "WenyanGPT: A Large Language Model for Classical Chinese Tasks," arXiv preprint (2025).
- ↑ "Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance," Proceedings of EMNLP (2025).
- ↑ "A Multi Agent Classical Chinese Translation Method Based on Large Language Models," Scientific Reports 15 (2025).
- ↑ See, e.g., Mark Edward Lewis and Curie Viragh, "Computational Stylistics and Chinese Literature," Journal of Chinese Literature and Culture 9, no. 1 (2022).
- ↑ Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China (Cambridge: Harvard University Asia Center, 2015).
- ↑ China-Princeton Digital Humanities Workshop 2025 (chinesedh2025.eas.princeton.edu).