History of Sinology/zh-tw/Chapter 30
第三十章:數字人文與漢學研究的未來
1. 引言
中國研究歷來受到用於獲取和分析中國文本之技術的塑造。造紙術的發明、雕版印刷的發展、大型類書和叢書的編纂——每一次技術進步都擴大了學者可及的文本材料範圍,並改變了他們用以研究這些材料的方法。二十世紀末和二十一世紀初的數字革命代表了這些變革中最新的——也可以說是最深遠的——一次。
數字技術從兩個根本方面改變了漢學。首先,它們使世界各地的學者得以免費獲取前所未有的大量中國文本材料。中國哲學書電子化計劃(Ctext)、中華電子佛典協會(CBETA)、中國歷史地理信息系統(CHGIS)等數據庫將過去需要多年奔赴專業圖書館和檔案館才能獲得的資源送到了學者的指尖。其次,它們提供了分析這些材料的新工具——這些工具能夠以遠超任何個體學者之能力的速度和規模來檢索、排序、比較、標註和可視化文本數據。
本章概述可供漢學家使用的主要數字資源和工具,考察計算方法對中國歷史和文學研究的方法論影響,並審視人工智能爲漢學研究未來帶來的挑戰與可能。
2. 數字文本數據庫
中國哲學書電子化計劃由Donald Sturgeon創建並維護,是最重要的開放獲取前現代中國文本數字圖書館。它提供了幾乎整個傳統中國文獻庫的全文檢索,包括儒家和道家經典、歷代正史、主要哲學文本以及大量文學、法律和行政文獻。所有文本均可全文檢索、交叉引用,並配有平行譯文和註釋。[1]
在Ctext出現之前,一位希望追蹤某一特定短語在中國文學傳統中演變的學者,需要查閱數十種印刷版本——這一過程可能耗時數週乃至數月。如今同樣的檢索只需數秒即可完成。這重塑了語文學研究的實踐,使得辨識互文聯繫、追蹤概念和詞彙的演變、以前所未有的效率驗證文本傳承的準確性成爲可能。Ctext還提供了應用程序接口(API),使學者能夠以編程方式訪問其數據,從而開展文本挖掘研究,分析整個前現代中國文學語料庫中的詞語使用模式和語義變遷。[2]
中華電子佛典協會(CBETA)1998年在臺灣成立,已將整部中國佛教大藏經數字化——這是一部包含數千部經文、註疏和論著的巨型文獻集。大藏經的龐大體量——超過一億漢字——使得任何個體學者都不可能閱讀其中的大部分。數字檢索工具現在使學者能夠定位特定段落、辨識引用和典故、追蹤思想在不同文本之間的傳播,並對詞彙和文體進行量化分析。[3]文本的數字化不僅是一種便利,更是一種方法論轉型:當文本以數字形式存在時,它們可以通過檢索、排序、比較和分析的方式揭示順序閱讀所無法發現的模式和聯繫。
中國歷史地理信息系統(CHGIS)是哈佛大學和復旦大學於2001年合作啓動的項目,提供了從公元前221年至公元1911年的居民點和歷代行政區劃的地理數據庫。它使學者能夠將歷史數據映射到地理空間上,揭示敘事記述中往往被遮蔽的中國歷史的空間維度。CHGIS對行政史、人口變遷以及文學和文化生產地理學的研究尤爲重要。[4]
MARKUS平臺由萊頓大學的魏希德(Hilde De Weerdt)開發,是一種文本標註和分析工具,使歷史學家能夠通過自動識別和標記中國文本中的人名、地名、日期和官職來從一手文獻中構建數據集。[5]DocuSky由臺灣大學開發,提供了一個類似但功能更廣的個人數字人文研究平臺,其靈活架構適用於從單部文學作品的研究到大規模歷史語料分析的各類項目。[6]這兩個平臺使數字人文方法惠及了那些主要專長在中國語言和歷史而非計算機科學領域的學者。
中國曆代人物傳記資料庫(CBDB)是哈佛大學、中央研究院和北京大學的合作項目,提供了約500,000位中國歷史人物的結構化傳記數據,包括親屬關係、社會交往、官職任免以及籍貫和活動地點等信息。CBDB開闢了羣體傳記學(prosopography)領域,使學者能夠提出用傳統方法無法回答的問題:宋代科舉及第者的地理分佈如何?明代親族網絡如何影響政治仕途?這些問題需要處理超出任何個體學者能力的大型數據集,但藉助CBDB提供的計算工具即可得到處理。[7]
3. 人工智能與古典中文
大型語言模型(LLMs)——包括GPT-4、Claude以及專門構建的WenyanGPT等模型——的迅速發展,激發了學界對其應用於古典中文的強烈興趣。這些模型在自然語言處理方面展示了顯著能力,它們在古典中文領域的應用有望加速漢學研究的多個方面:自動翻譯、實體識別、文本對比以及典故和互文聯繫的辨識。[8]
WenyanGPT是一個2025年發佈的專門用於古典中文任務的語言模型,其訓練專門基於古典中文文本,旨在處理這種語言的獨特特徵——沒有標點、極端的一詞多義、依賴語境來消除歧義,以及典故和引用的密集網絡。[9]
儘管取得了這些進展,重大挑戰依然存在。正如第22章所討論的,古典中文給自動處理帶來了艱鉅的困難。這些困難不僅是技術性的,更是根本性的智識問題:它們反映了古典中文作爲一種語言的本質——它並非爲高效溝通而設計,而是爲了美學和哲學表達,其中多義性和典故性是特色而非缺陷。當前的人工智能系統能夠以越來越高的準確度處理古典中文文本,但無法以人類學術研究所需的深度和敏感性來詮釋它們。它們能以合理的可靠性識別命名實體,但無法評判這些實體在其歷史語境中的意義。它們能以尚可的準確度翻譯單個句子,但無法捕捉原文的文學品質、哲學深度或文化共鳴。
人工智能在漢學研究中最具建設性的應用方式可能是協作式而非替代式的。人工智能工具可以充當研究助手,執行文本處理的例行任務——分詞、實體識別、初步翻譯、參考文獻覈查——這些任務佔用了漢學家大量的工作時間。它們還可以充當發現工具,在大型文本語料庫中辨識傳統閱讀方式無法察覺的模式。但詮釋性工作——對意義、重要性和質量的評判——仍是人類學術的領地。這種協作模式在實踐中已開始形成:學者使用數字檢索工具定位相關段落,運用傳統語文學方法加以分析,使用人工智能翻譯生成初稿,然後憑藉自身的語言和文化知識對這些譯稿進行修訂。
4. 中國文學的機器翻譯
近期的基準測試研究評估了大型語言模型在翻譯古典中國詩歌方面的表現,考察了充分性(忠實於原意)、流暢性(譯文的自然度)和優美性(文學品質)。[10]結果頗有啓發。當前的大型語言模型在充分性和流暢性上取得了相當高的分數,但在優美性上始終不足——譯文缺乏區分優秀人工翻譯與尚可機器譯文的文學品質。這一差距反映了一個根本性侷限:這些系統能處理語言模式但無法體味審美品質。它們能翻譯詩歌的指稱內容,但無法傳達其音韻、意象和情感肌理。
現代中文與古典中文之間的機器翻譯性能差距依然顯著。現代中文語法較爲規範且擁有大量平行訓練數據,適合神經機器翻譯。古典中文則因其截然不同的語法、極端的一詞多義和文化密度而繼續構成嚴峻挑戰。2025年發表於《Scientific Reports》的一項研究提出了一種多智能體框架,將翻譯過程分解爲三個階段——詞級釋義、段落級生成和多維審校。該方法相對單一模型方法提升了翻譯質量,但譯文仍需大量人工後編輯才能達到學術標準。[11]
對漢學實踐而言,其影響喜憂參半。人工智能翻譯工具可以極大地加速那些具有重要歷史價值但因翻譯繁瑣而鮮受學術關注的例行文本——行政文書、法典、技術專論——的翻譯。然而,文學和哲學文本的翻譯——那些傳統上處於漢學翻譯核心的文本——仍然需要當前人工智能系統所缺乏的深厚文化和審美知識。風險在於,機器翻譯的可用性可能製造翻譯已被"解決"的假象,從而降低學生習得真正語言能力的動力。機遇在於,機器翻譯將使漢學家從例行工作中解放出來,使他們能夠專注於翻譯中最具智識價值且真正不可替代的詮釋性和創造性維度。
5. 數字檔案、開放獲取與計算分析
數字漢學資源的開放獲取運動是近年來最積極的進展之一。Ctext、CBETA和CBDB等主要數據庫均爲免費使用,消除了此前限制漢學研究材料獲取的經濟和制度障礙。這對發展中國家和規模較小的機構中可能缺乏專業館藏的學者尤爲有益。
歷史檔案的數字化——包括中國曆代正史、地方誌、科舉檔案、法律文書和私人信函——開闢了大量新的一手資料。中國歷史文獻數據庫和清代宮中奏摺數字化等項目使得過去需要長期駐留中國檔案館才能開展的研究成爲可能。與此同時,數字獲取也帶來了新問題:數字化文本的質量參差不齊,元數據往往不完整或不可靠,材料的巨大體量可能鼓勵廣度而犧牲深度。數字工具所使"遠讀"(distant reading)取代一直是漢學研究基礎的"細讀"(close reading),是一個真實的風險。最具建設性的方法是將兩者結合。
計算技術已被應用於中國文學和歷史研究中日益廣泛的課題。文體計量學——對文學風格的量化研究——被用於通過分析詞頻、句長和語法結構等模式來考察作者歸屬、年代判定和文本真僞等問題。[12]網絡分析作爲研究塑造中國文學和政治文化的社會及學術關係的工具已經興起,對宋代和明代的研究尤其富有成果,因爲豐富的傳記數據庫使得以前所未有的規模繪製社會網絡成爲可能。[13]GIS工具與歷史數據庫的結合使空間分析成爲可能,揭示了中國文化生產的地理維度——文學活動在特定城市的集中、文學潮流沿貿易路線和行政網絡的傳播。
這些計算方法產生了真正的學術洞見,但也引發了方法論問題。量化方法能否捕捉使一個文本具有歷史或文學意義的品質?網絡分析能否解釋爲何一位詩人寫出了偉大的詩歌,而另一位擁有類似社會關係的詩人卻不能?答案是:計算方法是辨識模式和生成假設的強大工具,但無法替代詮釋性工作。它們能告訴我們發生了什麼,卻不能告訴我們它爲什麼重要,或人們如何感受。
6. 人才培養、可持續性與未來
數字轉向對新一代漢學家的培養具有深遠影響。傳統課程——古典中文、語文學方法、文本分析——仍然不可或缺,但已不再足夠。研究生如今還需要數字方法的訓練:如何有效使用文本數據庫,如何設計計算分析,如何評估機器學習算法的結果。數所大學已開始開發整合漢學與數字訓練的課程體系。2025年舉辦的中國-普林斯頓數字人文工作坊將漢學家和數字人文學者匯聚一堂,共同培訓應用於中國歷史和文學材料的計算方法。哈佛、萊頓和臺灣大學也出現了類似的倡議。[14]
一個持續存在的挑戰是數字資源的可持續性。數字數據庫和工具需要持續的維護、更新和資金支持。當創建數據庫的學者退休時,數據庫可能廢棄不用;當經費耗盡時,服務器可能被關閉。學術界尚未建立可靠的機制來確保數字漢學資源的長期保存和可及性。這不僅是一個技術問題,更是一個制度問題:數字人文項目通常需要開發階段的啓動資金,同時也需要持續的維護資金——這種模式與大多數學術機構以項目爲基礎的資助結構難以兼容。
數字技術還爲國際學術合作創造了新的可能。中國和西方學者可以在共享數據庫上協同工作,無需同處一地即可爲共同平臺做出貢獻。這些合作有可能彌閤中國與西方學術傳統之間的鴻溝。與此同時,數據安全、知識產權和政治監控方面的顧慮可能使此類合作複雜化,尤其是考慮到第29章討論的政治緊張局勢。
從當前數字漢學的狀況中可以得出的最重要結論是:計算方法補充但不能取代傳統的人文學術研究。中國文本的閱讀、詮釋和翻譯;歷史語境的重建;文學品質的鑑賞;哲學意義的評判——這些活動需要一種不可化約的人類理解力,無論工具多麼精密都無法被自動化。漢學研究的未來不在於在傳統方法和計算方法之間做選擇,而在於將兩者結合起來。一位既能流利閱讀古典中文並以洞察力加以詮釋,又能運用數字工具檢索、分析和可視化文本數據的學者,將比純粹的語文學家或純粹的數字人文學者裝備更爲精良。這一領域面臨的挑戰正在於培養這樣的學者。
註釋
參考文獻
Bol, Peter K. "The China Historical GIS." Journal of Chinese History 4, no. 2 (2020).
De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.
Sturgeon, Donald. "The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, no. 1 (2021): 189–207.
"A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).
"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
腳註
- ↑ Donald Sturgeon, “The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese,” Digital Scholarship in the Humanities。
- ↑ Donald Sturgeon, “Digital Humanities,” 中國哲學書電子化計劃網站(ctext.org/digital-humanities)。
- ↑ 中華電子佛典協會(CBETA),見 ai-humanities.com;Marcus Bingenheimer, “CBETA and the Future of Digital Buddhist Studies.”
- ↑ Peter K. Bol, “The China Historical GIS,” Journal of Chinese History 4, no. 2(2020)。
- ↑ Hilde De Weerdt, “Creating, Linking, and Analyzing Chinese and Korean Datasets: Digital Text Annotation in MARKUS and COMPARATIVUS.”
- ↑ Tu Hsiu-chih, “DocuSky, A Personal Digital Humanities Platform for Scholars,” Journal of Chinese History 4, no. 2。
- ↑ Peter K. Bol & Wen-chin Chang, “The China Biographical Database,” in Digital Humanities and East Asian Studies。
- ↑ 見本書第二十二章(翻譯)關於人工智能翻譯挑戰的論述。
- ↑ “WenyanGPT: A Large Language Model for Classical Chinese Tasks,” arXiv preprint(2025)。
- ↑ “Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance,” Proceedings of EMNLP(2025)。
- ↑ “A Multi Agent Classical Chinese Translation Method Based on Large Language Models,” Scientific Reports 15(2025)。
- ↑ 參見 Mark Edward Lewis & Curie Viragh, “Computational Stylistics and Chinese Literature,” Journal of Chinese History。
- ↑ Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China(Cambridge, MA: Harvard University Asia Center, 2015)。
- ↑ China-Princeton 數字人文工作坊 2025(chinesedh2025.eas.princeton.edu)。