Difference between revisions of "History of Sinology/zh-tw/Chapter 30"

From China Studies Wiki
Jump to navigation Jump to search
 
(Langzeichenfassung: vollständig + Fußnoten korrigiert (ungeglättet))
 
Line 1: Line 1:
 
{{Book Nav|book=History_of_Sinology|prev=History_of_Sinology/zh-tw/Chapter_29|next=History_of_Sinology/zh-tw/Chapter_31}}
 
{{Book Nav|book=History_of_Sinology|prev=History_of_Sinology/zh-tw/Chapter_29|next=History_of_Sinology/zh-tw/Chapter_31}}
  
= 第三十章:數位人文與漢學研究的未來 =
+
= 第三十章:數字人文與漢學研究的未來 =
  
 
== 1. 引言 ==
 
== 1. 引言 ==
  
中國研究一向受到文本獲取和分析技術的深刻影響。造紙術的發明、雕版印刷的發展、大型類書和叢書的編纂——每一次進步都拓展了學者可用的文本資料範圍,改變了他們的研究方法。二十世紀末至二十一世紀初的數位革命代表了這些變革中最近的——或許也是影響最為深遠的——一次。
+
中國研究歷來受到用於獲取和分析中國文本之技術的塑造。造紙術的發明、雕版印刷的發展、大型類書和叢書的編纂——每一次技術進步都擴大了學者可及的文本材料範圍,並改變了他們用以研究這些材料的方法。二十世紀末和二十一世紀初的數字革命代表了這些變革中最新的——也可以說是最深遠的——一次。
  
數位技術以兩種根本方式改變了漢學。第一,它使前所未有的大量中國文本資料向全世界學者免費開放。中國哲學書電子化計劃(Ctext)、中華電子佛典協會(CBETA)和中國歷史地理資訊系統(CHGIS)等數據庫,為學者提供了過去需要數年往返專業圖書館和檔案館才能獲取的資源。第二,它提供了分析這些資料的新工具——能夠以遠超任何個人學者能力的速度和規模對文本數據進行搜索、排序、比較、標注和可視化。
+
數字技術從兩個根本方面改變了漢學。首先,它們使世界各地的學者得以免費獲取前所未有的大量中國文本材料。中國哲學書電子化計劃(Ctext)、中華電子佛典協會(CBETA)、中國歷史地理信息系統(CHGIS)等數據庫將過去需要多年奔赴專業圖書館和檔案館才能獲得的資源送到了學者的指尖。其次,它們提供了分析這些材料的新工具——這些工具能夠以遠超任何個體學者之能力的速度和規模來檢索、排序、比較、標註和可視化文本數據。
  
本章概覽漢學家可用的主要數位資源和工具,探討計算方法對中國歷史和文學研究的方法論意義,並考察人工智能為漢學研究未來所帶來的挑戰與可能性。
+
本章概述可供漢學家使用的主要數字資源和工具,考察計算方法對中國歷史和文學研究的方法論影響,並審視人工智能爲漢學研究未來帶來的挑戰與可能。
  
== 2. 數位文本數據庫 ==
+
== 2. 數字文本數據庫 ==
  
中國哲學書電子化計劃(Chinese Text Project),由司徒琳(Donald Sturgeon)創建並維護,是最重要的前近代中國文本開放數位圖書館。它提供幾乎涵蓋傳統中國文獻全部的全文存取,包括儒家和道家經典、正史、主要哲學文本,以及大量的文學、法律和行政著述。所有文本均可全文檢索,配有交叉引用、平行翻譯和注釋。<ref>David B. Honey, ''Incense at the Altar: Pioneering Sinologists and the Development of Classical Chinese Philology'' (New Haven: American Oriental Society, 2001), preface, xxii.</ref>
+
中國哲學書電子化計劃由Donald Sturgeon創建並維護,是最重要的開放獲取前現代中國文本數字圖書館。它提供了幾乎整個傳統中國文獻庫的全文檢索,包括儒家和道家經典、歷代正史、主要哲學文本以及大量文學、法律和行政文獻。所有文本均可全文檢索、交叉引用,並配有平行譯文和註釋。<ref>Donald Sturgeon, “The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese,” Digital Scholarship in the Humanities。</ref>
  
在Ctext出現之前,一位希望追溯某一特定語句在中國文學傳統中流變的學者,需要查閱數十種印刷版本,這一過程可能需要數週甚至數月。同樣的搜索現在可以在幾秒鐘內完成。這徹底重塑了語文學研究的實踐,使得識別互文關聯、追溯概念和詞彙的演變、驗證文本傳承的準確性成為可能,其效率在過去難以想像。Ctext還提供應用程式介面(API),使學者能夠以程式方式存取其數據,從而支持文本挖掘研究,分析整個前近代中國文學語料庫中的用詞模式和語義變遷。<ref>Honey, ''Incense at the Altar'', preface, x.</ref>
+
在Ctext出現之前,一位希望追蹤某一特定短語在中國文學傳統中演變的學者,需要查閱數十種印刷版本——這一過程可能耗時數週乃至數月。如今同樣的檢索只需數秒即可完成。這重塑了語文學研究的實踐,使得辨識互文聯繫、追蹤概念和詞彙的演變、以前所未有的效率驗證文本傳承的準確性成爲可能。Ctext還提供了應用程序接口(API),使學者能夠以編程方式訪問其數據,從而開展文本挖掘研究,分析整個前現代中國文學語料庫中的詞語使用模式和語義變遷。<ref>Donald Sturgeon, “Digital Humanities,” 中國哲學書電子化計劃網站(ctext.org/digital-humanities)。</ref>
  
中華電子佛典協會(CBETA),1998年成立於台灣,已將整部中國佛教大藏經數位化——這是一部包含數千部經典、注疏和論著的龐大彙集。大藏經的巨大規模——超過一億個漢字——使得任何個人學者都不可能閱讀其中的大部分。數位搜索工具現在使學者能夠定位特定段落、識別引文和典故、追溯思想在不同文本間的傳播,並對詞彙和風格進行量化分析。<ref>Zhang Xiping, lecture 1, "Introduction to Western Sinology Studies," pp. 165–168.</ref>文本的數位化不僅是便利,更是一種方法論的轉變:當文本以數位形式存在時,可以通過搜索、排序、比較和分析來揭示順序閱讀所無法發現的模式和關聯。
+
中華電子佛典協會(CBETA)1998年在臺灣成立,已將整部中國佛教大藏經數字化——這是一部包含數千部經文、註疏和論著的巨型文獻集。大藏經的龐大體量——超過一億漢字——使得任何個體學者都不可能閱讀其中的大部分。數字檢索工具現在使學者能夠定位特定段落、辨識引用和典故、追蹤思想在不同文本之間的傳播,並對詞彙和文體進行量化分析。<ref>中華電子佛典協會(CBETA),見 ai-humanities.com;Marcus Bingenheimer, “CBETA and the Future of Digital Buddhist Studies.</ref>文本的數字化不僅是一種便利,更是一種方法論轉型:當文本以數字形式存在時,它們可以通過檢索、排序、比較和分析的方式揭示順序閱讀所無法發現的模式和聯繫。
  
中國歷史地理資訊系統(CHGIS),是哈佛大學和復旦大學合作項目,2001年啟動,提供了一個涵蓋公元前221年至公元1911年的居民點和歷史行政區劃的地理數據庫。它使學者能夠將歷史數據映射到地理空間上,揭示在敘事記載中往往被遮蔽的中國歷史的空間維度。CHGIS對行政史、人口變遷以及文學和文化生產的地理研究尤為有價值。<ref>Peter K. Bol, "The China Historical GIS," ''Journal of Chinese History'' 4, no. 2 (2020).</ref>
+
中國歷史地理信息系統(CHGIS)是哈佛大學和復旦大學於2001年合作啓動的項目,提供了從公元前221年至公元1911年的居民點和歷代行政區劃的地理數據庫。它使學者能夠將歷史數據映射到地理空間上,揭示敘事記述中往往被遮蔽的中國歷史的空間維度。CHGIS對行政史、人口變遷以及文學和文化生產地理學的研究尤爲重要。<ref>Peter K. Bol, “The China Historical GIS,Journal of Chinese History 4, no. 2(2020)。</ref>
  
MARKUS平台,由萊頓大學的魏希德(Hilde De Weerdt)開發,是一個文本標注和分析工具,使歷史學家能夠通過自動識別和標記中國文本中的人名、地名、日期和官銜,從原始文獻中構建數據集。<ref>Hilde De Weerdt, "MARKUS: Text Analysis and Reading Platform," in ''Journal of Chinese History'' 4, no. 2 (2020); see also the Digital Humanities guide at University of Chicago Library.</ref>DocuSky,由國立臺灣大學開發,提供了一個類似但範圍更廣的個人數位人文研究平台,其靈活的架構適用於從個別文學作品的研究到歷史語料庫的大規模分析等各類項目。<ref>Tu Hsiu-chih, "DocuSky, A Personal Digital Humanities Platform for Scholars," ''Journal of Chinese History'' 4, no. 2 (2020).</ref>這兩個平台使主要專長在中國語言和歷史而非計算機科學的學者也能使用數位人文方法。
+
MARKUS平臺由萊頓大學的魏希德(Hilde De Weerdt)開發,是一種文本標註和分析工具,使歷史學家能夠通過自動識別和標記中國文本中的人名、地名、日期和官職來從一手文獻中構建數據集。<ref>Hilde De Weerdt, “Creating, Linking, and Analyzing Chinese and Korean Datasets: Digital Text Annotation in MARKUS and COMPARATIVUS.</ref>DocuSky由臺灣大學開發,提供了一個類似但功能更廣的個人數字人文研究平臺,其靈活架構適用於從單部文學作品的研究到大規模歷史語料分析的各類項目。<ref>Tu Hsiu-chih, “DocuSky, A Personal Digital Humanities Platform for Scholars,Journal of Chinese History 4, no. 2。</ref>這兩個平臺使數字人文方法惠及了那些主要專長在中國語言和歷史而非計算機科學領域的學者。
  
中國歷代人物傳記資料庫(CBDB),是哈佛大學、中央研究院和北京大學的合作項目,提供了約五十萬名中國歷史人物的結構化傳記數據。它包含親屬關係、社會交往、官職、籍貫和活動地等資訊。CBDB開拓了群體傳記學(prosopography)領域,使學者能夠提出傳統方法無法回答的問題:宋代科舉及第者的地理分布如何?明代的親族網絡如何塑造了政治仕途?這些問題需要處理超越任何個人學者能力的大型數據集,但可以借助CBDB提供的計算工具加以解決。<ref>Peter K. Bol and Wen-chin Chang, "The China Biographical Database," in ''Digital Humanities and East Asian Studies'' (Leiden: Brill, 2020).</ref>
+
中國曆代人物傳記資料庫(CBDB)是哈佛大學、中央研究院和北京大學的合作項目,提供了約500,000位中國歷史人物的結構化傳記數據,包括親屬關係、社會交往、官職任免以及籍貫和活動地點等信息。CBDB開闢了羣體傳記學(prosopography)領域,使學者能夠提出用傳統方法無法回答的問題:宋代科舉及第者的地理分佈如何?明代親族網絡如何影響政治仕途?這些問題需要處理超出任何個體學者能力的大型數據集,但藉助CBDB提供的計算工具即可得到處理。<ref>Peter K. Bol & Wen-chin Chang, “The China Biographical Database,in Digital Humanities and East Asian Studies。</ref>
  
 
== 3. 人工智能與古典中文 ==
 
== 3. 人工智能與古典中文 ==
  
大型語言模型(LLMs)的迅速發展——包括GPT-4、Claude以及專門構建的WenyanGPT等模型——引發了人們對其在古典中文領域應用的濃厚興趣。這些模型在自然語言處理方面展現了顯著能力,將其應用於古典中文可以加速漢學研究的多個方面:自動翻譯、實體識別、文本比較、典故和互文關聯的識別。<ref>See Chapter 22 (Translation) of this volume on AI translation challenges.</ref>
+
大型語言模型(LLMs)——包括GPT-4、Claude以及專門構建的WenyanGPT等模型——的迅速發展,激發了學界對其應用於古典中文的強烈興趣。這些模型在自然語言處理方面展示了顯著能力,它們在古典中文領域的應用有望加速漢學研究的多個方面:自動翻譯、實體識別、文本對比以及典故和互文聯繫的辨識。<ref>見本書第二十二章(翻譯)關於人工智能翻譯挑戰的論述。</ref>
  
WenyanGPT是一個專為古典中文任務設計的語言模型,於2025年發布,專門在古典中文文本上訓練,旨在處理該語言的獨特特徵——缺乏標點、極度多義、依賴語境消歧,以及典故和引文構成的緊密網絡。<ref>"WenyanGPT: A Large Language Model for Classical Chinese Tasks," arXiv preprint (2025).</ref>
+
WenyanGPT是一個2025年發佈的專門用於古典中文任務的語言模型,其訓練專門基於古典中文文本,旨在處理這種語言的獨特特徵——沒有標點、極端的一詞多義、依賴語境來消除歧義,以及典故和引用的密集網絡。<ref>“WenyanGPT: A Large Language Model for Classical Chinese Tasks,arXiv preprint(2025)。</ref>
  
儘管取得了這些進展,重大挑戰依然存在。正如第二十二章所討論的,古典中文對自動處理構成了艱巨的困難。這些困難不僅僅是技術性的,而是根本上屬於學術性的:它們反映了古典中文作為一種語言的本質——它不是為了高效溝通而設計的,而是為了美學和哲學表達,其中歧義和含蓄是特色而非缺陷。當前的人工智能系統能夠以日益提高的準確度處理古典中文文本,但無法以人文研究所要求的深度和敏感度加以詮釋。它們能以合理的可靠度識別命名實體,但無法評估這些實體在其歷史語境中的意義。它們能以尚可的準確度翻譯單個句子,但無法傳達原文的文學品質、哲學深度或文化韻味。
+
儘管取得了這些進展,重大挑戰依然存在。正如第22章所討論的,古典中文給自動處理帶來了艱鉅的困難。這些困難不僅是技術性的,更是根本性的智識問題:它們反映了古典中文作爲一種語言的本質——它並非爲高效溝通而設計,而是爲了美學和哲學表達,其中多義性和典故性是特色而非缺陷。當前的人工智能系統能夠以越來越高的準確度處理古典中文文本,但無法以人類學術研究所需的深度和敏感性來詮釋它們。它們能以合理的可靠性識別命名實體,但無法評判這些實體在其歷史語境中的意義。它們能以尚可的準確度翻譯單個句子,但無法捕捉原文的文學品質、哲學深度或文化共鳴。
  
在漢學研究中運用人工智能最具成效的方式,很可能是協作式而非替代式的。人工智能工具可以充當研究助手,執行文本處理的常規任務——分詞、實體識別、初步翻譯、引文核查——這些任務佔據了漢學家大量時間。它們還可以充當發現工具,在大型文本語料庫中識別傳統閱讀所無法發現的模式。但詮釋工作——對意義、重要性和品質的評判——仍然屬於人文學術的領域。這種協作模式已在實踐中逐漸形成:學者使用數位搜索工具定位相關段落,運用傳統語文學方法加以分析,使用機器翻譯生成初步譯文,然後以自身的語言和文化知識加以修訂。
+
人工智能在漢學研究中最具建設性的應用方式可能是協作式而非替代式的。人工智能工具可以充當研究助手,執行文本處理的例行任務——分詞、實體識別、初步翻譯、參考文獻覈查——這些任務佔用了漢學家大量的工作時間。它們還可以充當發現工具,在大型文本語料庫中辨識傳統閱讀方式無法察覺的模式。但詮釋性工作——對意義、重要性和質量的評判——仍是人類學術的領地。這種協作模式在實踐中已開始形成:學者使用數字檢索工具定位相關段落,運用傳統語文學方法加以分析,使用人工智能翻譯生成初稿,然後憑藉自身的語言和文化知識對這些譯稿進行修訂。
  
 
== 4. 中國文學的機器翻譯 ==
 
== 4. 中國文學的機器翻譯 ==
  
近期的基準測試研究評估了大型語言模型在古典中國詩歌翻譯方面的表現,從準確性(對意義的忠實度)、流暢度(表達的自然度)和優雅度(文學品質)三個維度進行衡量。<ref>"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance," ''Proceedings of EMNLP'' (2025).</ref>結果富有啟示。當前的大型語言模型在準確性和流暢度方面達到了相當高的水準,但在優雅度方面始終不足——譯文缺乏區分優秀人工翻譯與堪用機器譯文的文學品質。這一差距反映了一個根本性的局限:這些系統能夠處理語言模式,但無法欣賞美學品質。它們能翻譯一首詩的指稱內容,卻無法傳達其音韻、意象和情感質地。
+
近期的基準測試研究評估了大型語言模型在翻譯古典中國詩歌方面的表現,考察了充分性(忠實於原意)、流暢性(譯文的自然度)和優美性(文學品質)。<ref>“Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance,Proceedings of EMNLP(2025)。</ref>結果頗有啓發。當前的大型語言模型在充分性和流暢性上取得了相當高的分數,但在優美性上始終不足——譯文缺乏區分優秀人工翻譯與尚可機器譯文的文學品質。這一差距反映了一個根本性侷限:這些系統能處理語言模式但無法體味審美品質。它們能翻譯詩歌的指稱內容,但無法傳達其音韻、意象和情感肌理。
  
現代中文與古典中文機器翻譯之間的品質差距仍然相當大。現代中文語法相對規則,且有大量平行訓練數據,非常適合神經機器翻譯。古典中文語法截然不同,多義性極強,文化密度極高,繼續構成嚴峻挑戰。2025年發表於《科學報告》(''Scientific Reports'')的一項研究提出了一個多智能體框架,將翻譯過程分解為三個階段——詞級詮釋、段落級生成和多維度審校。這一方法較單模型方法提高了翻譯品質,但譯文仍需大量人工後期編輯才能達到學術標準。<ref>"A Multi Agent Classical Chinese Translation Method Based on Large Language Models," ''Scientific Reports'' 15 (2025).</ref>
+
現代中文與古典中文之間的機器翻譯性能差距依然顯著。現代中文語法較爲規範且擁有大量平行訓練數據,適合神經機器翻譯。古典中文則因其截然不同的語法、極端的一詞多義和文化密度而繼續構成嚴峻挑戰。2025年發表於《Scientific Reports》的一項研究提出了一種多智能體框架,將翻譯過程分解爲三個階段——詞級釋義、段落級生成和多維審校。該方法相對單一模型方法提升了翻譯質量,但譯文仍需大量人工後編輯才能達到學術標準。<ref>“A Multi Agent Classical Chinese Translation Method Based on Large Language Models,Scientific Reports 15(2025)。</ref>
  
對漢學實踐而言,其意義是複雜的。人工智能翻譯工具可以大幅加速常規文本的翻譯——行政文書、法律典章、技術論著——這些文本具有重大歷史價值,卻因翻譯工作的單調乏味而鮮受學者關注。然而,文學和哲學文本——傳統上處於漢學翻譯核心的文本——的翻譯仍然需要當前人工智能系統所欠缺的深厚文化和美學知識。風險在於,機器翻譯的普及可能製造翻譯問題已獲解決的假象,降低學生獲取真正語言能力的動力。機遇在於,機器翻譯將使漢學家從常規工作中解放出來,專注於翻譯中最具學術價值且真正不可替代的詮釋性和創造性層面。
+
對漢學實踐而言,其影響喜憂參半。人工智能翻譯工具可以極大地加速那些具有重要歷史價值但因翻譯繁瑣而鮮受學術關注的例行文本——行政文書、法典、技術專論——的翻譯。然而,文學和哲學文本的翻譯——那些傳統上處於漢學翻譯核心的文本——仍然需要當前人工智能系統所缺乏的深厚文化和審美知識。風險在於,機器翻譯的可用性可能製造翻譯已被"解決"的假象,從而降低學生習得真正語言能力的動力。機遇在於,機器翻譯將使漢學家從例行工作中解放出來,使他們能夠專注於翻譯中最具智識價值且真正不可替代的詮釋性和創造性維度。
  
== 5. 數位檔案、開放取用與計算分析 ==
+
== 5. 數字檔案、開放獲取與計算分析 ==
  
數位漢學資源的開放取用運動是近年來最為積極的發展之一。Ctext、CBETA、CBDB等主要數據庫均可免費使用,消除了過去限制漢學研究資料取用的經濟和制度障礙。這對發展中國家和規模較小的學術機構的學者尤為有利,因為他們可能缺乏專業的圖書館館藏。
+
數字漢學資源的開放獲取運動是近年來最積極的進展之一。Ctext、CBETA和CBDB等主要數據庫均爲免費使用,消除了此前限制漢學研究材料獲取的經濟和制度障礙。這對發展中國家和規模較小的機構中可能缺乏專業館藏的學者尤爲有益。
  
歷史檔案的數位化——包括中國正史、方志、科舉記錄、法律文書和私人書信——開放了大量新的原始資料。中國歷史文獻數據庫和數位化的清代宮廷奏摺等項目,使得過去需要長期前往中國檔案館才能進行的研究成為可能。與此同時,數位取用也引發了新的問題:數位化文本的品質參差不齊,元數據往往不完整或不可靠,而資料的龐大體量可能鼓勵廣度而犧牲深度。數位工具所實現的「遠讀」確有取代始終是漢學研究基礎的「細讀」之風險。最具成效的方法是兩者兼採。
+
歷史檔案的數字化——包括中國曆代正史、地方誌、科舉檔案、法律文書和私人信函——開闢了大量新的一手資料。中國歷史文獻數據庫和清代宮中奏摺數字化等項目使得過去需要長期駐留中國檔案館才能開展的研究成爲可能。與此同時,數字獲取也帶來了新問題:數字化文本的質量參差不齊,元數據往往不完整或不可靠,材料的巨大體量可能鼓勵廣度而犧牲深度。數字工具所使"遠讀"(distant reading)取代一直是漢學研究基礎的"細讀"(close reading),是一個真實的風險。最具建設性的方法是將兩者結合。
  
計算技術已被應用於中國文學和歷史研究中日益廣泛的問題。文體計量分析(stylometry)——對文學風格的量化研究——被用來通過分析詞頻、句長和語法結構的模式,探討作者歸屬、年代判定和文本真偽等問題。<ref>See, e.g., Mark Edward Lewis and Curie Viragh, "Computational Stylistics and Chinese Literature," ''Journal of Chinese Literature and Culture'' 9, no. 1 (2022).</ref>網絡分析已成為研究塑造中國文學和政治文化的社會與學術關係的工具,在宋代和明代研究中尤為豐碩,因為豐富的傳記數據庫使得以前所未有的規模繪製社會網絡成為可能。<ref>Hilde De Weerdt, ''Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China'' (Cambridge: Harvard University Asia Center, 2015).</ref>地理資訊系統(GIS)工具與歷史數據庫的結合,使得空間分析成為可能,揭示了中國文化生產的地理維度——文學活動在特定城市的集中、文學風潮沿貿易路線和行政網絡的傳播。
+
計算技術已被應用於中國文學和歷史研究中日益廣泛的課題。文體計量學——對文學風格的量化研究——被用於通過分析詞頻、句長和語法結構等模式來考察作者歸屬、年代判定和文本真僞等問題。<ref>參見 Mark Edward Lewis & Curie Viragh, “Computational Stylistics and Chinese Literature,Journal of Chinese History。</ref>網絡分析作爲研究塑造中國文學和政治文化的社會及學術關係的工具已經興起,對宋代和明代的研究尤其富有成果,因爲豐富的傳記數據庫使得以前所未有的規模繪製社會網絡成爲可能。<ref>Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China(Cambridge, MA: Harvard University Asia Center, 2015)。</ref>GIS工具與歷史數據庫的結合使空間分析成爲可能,揭示了中國文化生產的地理維度——文學活動在特定城市的集中、文學潮流沿貿易路線和行政網絡的傳播。
  
這些計算方法產出了真正的學術洞見,但也提出了方法論問題。量化方法能否捕捉使一部文本具有歷史或文學重要性的品質?網絡分析能否解釋為什麼一位詩人創作了偉大的詩歌,而另一位擁有類似社會關係的詩人卻未能如此?答案是,計算方法是識別模式和生成假說的強大工具,但不能替代詮釋性工作。它們能告訴我們''發生了什麼'',但不能告訴我們''為什麼重要''''感受如何''
+
這些計算方法產生了真正的學術洞見,但也引發了方法論問題。量化方法能否捕捉使一個文本具有歷史或文學意義的品質?網絡分析能否解釋爲何一位詩人寫出了偉大的詩歌,而另一位擁有類似社會關係的詩人卻不能?答案是:計算方法是辨識模式和生成假設的強大工具,但無法替代詮釋性工作。它們能告訴我們發生了''什麼'',卻不能告訴我們它''爲什麼''重要,或人們''如何''感受。
  
 
== 6. 人才培養、可持續性與未來 ==
 
== 6. 人才培養、可持續性與未來 ==
  
數位轉向對下一代漢學家的培養有著深遠影響。傳統的課程設置——古典中文、語文學方法、文本分析——仍然必不可少,但已不再充分。研究生現在還需要接受數位方法的訓練:如何有效使用文本數據庫、如何設計計算分析、如何評估機器學習算法的結果。多所大學已開始開發將漢學與數位訓練整合在一起的課程。2025年舉辦的中國—普林斯頓數位人文工作坊,匯集了漢學家和數位人文學者,進行運用計算方法研究中國歷史和文學材料的協同訓練。類似的舉措也在哈佛大學、萊頓大學和國立臺灣大學出現。<ref>China-Princeton Digital Humanities Workshop 2025 (chinesedh2025.eas.princeton.edu).</ref>
+
數字轉向對新一代漢學家的培養具有深遠影響。傳統課程——古典中文、語文學方法、文本分析——仍然不可或缺,但已不再足夠。研究生如今還需要數字方法的訓練:如何有效使用文本數據庫,如何設計計算分析,如何評估機器學習算法的結果。數所大學已開始開發整合漢學與數字訓練的課程體系。2025年舉辦的中國-普林斯頓數字人文工作坊將漢學家和數字人文學者匯聚一堂,共同培訓應用於中國歷史和文學材料的計算方法。哈佛、萊頓和臺灣大學也出現了類似的倡議。<ref>China-Princeton 數字人文工作坊 2025(chinesedh2025.eas.princeton.edu)。</ref>
  
數位資源的可持續性是一個持續性的挑戰。數位數據庫和工具需要持續的維護、更新和經費。當創建數據庫的學者退休時,數據庫可能陷入閒置;當經費耗盡時,伺服器可能被關閉。學術界尚未建立確保數位漢學資源長期保存和可用性的可靠機制。這一問題不僅是技術性的,也是制度性的:數位人文項目通常需要用於開發的初始經費和用於維護的持續經費,這一模式與大多數學術機構以項目為基礎的經費結構難以契合。
+
一個持續存在的挑戰是數字資源的可持續性。數字數據庫和工具需要持續的維護、更新和資金支持。當創建數據庫的學者退休時,數據庫可能廢棄不用;當經費耗盡時,服務器可能被關閉。學術界尚未建立可靠的機制來確保數字漢學資源的長期保存和可及性。這不僅是一個技術問題,更是一個制度問題:數字人文項目通常需要開發階段的啓動資金,同時也需要持續的維護資金——這種模式與大多數學術機構以項目爲基礎的資助結構難以兼容。
  
數位技術也為國際學術合作創造了新的可能性。中國和西方學者可以在共享數據庫上協同工作,無需實際的地理鄰近即可為共同平台做出貢獻。這些合作有望彌合中國與西方學術傳統之間的鴻溝。與此同時,對數據安全、知識產權和政治監控的擔憂可能使這些合作變得複雜,尤其是考慮到第二十九章所討論的政治緊張局勢。
+
數字技術還爲國際學術合作創造了新的可能。中國和西方學者可以在共享數據庫上協同工作,無需同處一地即可爲共同平臺做出貢獻。這些合作有可能彌閤中國與西方學術傳統之間的鴻溝。與此同時,數據安全、知識產權和政治監控方面的顧慮可能使此類合作複雜化,尤其是考慮到第29章討論的政治緊張局勢。
  
從數位漢學的現狀可以得出的最重要結論是:計算方法補充但不能替代傳統的人文學術。閱讀、詮釋和翻譯中國文本;重建歷史語境;欣賞文學品質;評估哲學意義——這些活動需要一種不可化約為機器的人類理解,無論工具變得多麼精密,都無法將其自動化。漢學研究的未來不在於在傳統方法和計算方法之間做出選擇,而在於將兩者結合。一位能夠流利閱讀古典中文並富有洞察力地加以詮釋,同時又能運用數位工具進行搜索、分析和數據可視化的學者,將比純粹的語文學家或純粹的數位人文學者都更有優勢。該領域面臨的挑戰正是培養這樣的學者。
+
從當前數字漢學的狀況中可以得出的最重要結論是:計算方法補充但不能取代傳統的人文學術研究。中國文本的閱讀、詮釋和翻譯;歷史語境的重建;文學品質的鑑賞;哲學意義的評判——這些活動需要一種不可化約的人類理解力,無論工具多麼精密都無法被自動化。漢學研究的未來不在於在傳統方法和計算方法之間做選擇,而在於將兩者結合起來。一位既能流利閱讀古典中文並以洞察力加以詮釋,又能運用數字工具檢索、分析和可視化文本數據的學者,將比純粹的語文學家或純粹的數字人文學者裝備更爲精良。這一領域面臨的挑戰正在於培養這樣的學者。
  
== 注釋 ==
+
== 註釋 ==
  
== 參考書目 ==
+
== 參考文獻 ==
  
 
Bol, Peter K. "The China Historical GIS." ''Journal of Chinese History'' 4, no. 2 (2020).
 
Bol, Peter K. "The China Historical GIS." ''Journal of Chinese History'' 4, no. 2 (2020).
Line 79: Line 79:
 
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
 
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
  
== 參考文獻 ==
+
== 腳註 ==
 
<references />
 
<references />
  

Latest revision as of 02:14, 24 June 2026

第三十章:數字人文與漢學研究的未來

1. 引言

中國研究歷來受到用於獲取和分析中國文本之技術的塑造。造紙術的發明、雕版印刷的發展、大型類書和叢書的編纂——每一次技術進步都擴大了學者可及的文本材料範圍,並改變了他們用以研究這些材料的方法。二十世紀末和二十一世紀初的數字革命代表了這些變革中最新的——也可以說是最深遠的——一次。

數字技術從兩個根本方面改變了漢學。首先,它們使世界各地的學者得以免費獲取前所未有的大量中國文本材料。中國哲學書電子化計劃(Ctext)、中華電子佛典協會(CBETA)、中國歷史地理信息系統(CHGIS)等數據庫將過去需要多年奔赴專業圖書館和檔案館才能獲得的資源送到了學者的指尖。其次,它們提供了分析這些材料的新工具——這些工具能夠以遠超任何個體學者之能力的速度和規模來檢索、排序、比較、標註和可視化文本數據。

本章概述可供漢學家使用的主要數字資源和工具,考察計算方法對中國歷史和文學研究的方法論影響,並審視人工智能爲漢學研究未來帶來的挑戰與可能。

2. 數字文本數據庫

中國哲學書電子化計劃由Donald Sturgeon創建並維護,是最重要的開放獲取前現代中國文本數字圖書館。它提供了幾乎整個傳統中國文獻庫的全文檢索,包括儒家和道家經典、歷代正史、主要哲學文本以及大量文學、法律和行政文獻。所有文本均可全文檢索、交叉引用,並配有平行譯文和註釋。[1]

在Ctext出現之前,一位希望追蹤某一特定短語在中國文學傳統中演變的學者,需要查閱數十種印刷版本——這一過程可能耗時數週乃至數月。如今同樣的檢索只需數秒即可完成。這重塑了語文學研究的實踐,使得辨識互文聯繫、追蹤概念和詞彙的演變、以前所未有的效率驗證文本傳承的準確性成爲可能。Ctext還提供了應用程序接口(API),使學者能夠以編程方式訪問其數據,從而開展文本挖掘研究,分析整個前現代中國文學語料庫中的詞語使用模式和語義變遷。[2]

中華電子佛典協會(CBETA)1998年在臺灣成立,已將整部中國佛教大藏經數字化——這是一部包含數千部經文、註疏和論著的巨型文獻集。大藏經的龐大體量——超過一億漢字——使得任何個體學者都不可能閱讀其中的大部分。數字檢索工具現在使學者能夠定位特定段落、辨識引用和典故、追蹤思想在不同文本之間的傳播,並對詞彙和文體進行量化分析。[3]文本的數字化不僅是一種便利,更是一種方法論轉型:當文本以數字形式存在時,它們可以通過檢索、排序、比較和分析的方式揭示順序閱讀所無法發現的模式和聯繫。

中國歷史地理信息系統(CHGIS)是哈佛大學和復旦大學於2001年合作啓動的項目,提供了從公元前221年至公元1911年的居民點和歷代行政區劃的地理數據庫。它使學者能夠將歷史數據映射到地理空間上,揭示敘事記述中往往被遮蔽的中國歷史的空間維度。CHGIS對行政史、人口變遷以及文學和文化生產地理學的研究尤爲重要。[4]

MARKUS平臺由萊頓大學的魏希德(Hilde De Weerdt)開發,是一種文本標註和分析工具,使歷史學家能夠通過自動識別和標記中國文本中的人名、地名、日期和官職來從一手文獻中構建數據集。[5]DocuSky由臺灣大學開發,提供了一個類似但功能更廣的個人數字人文研究平臺,其靈活架構適用於從單部文學作品的研究到大規模歷史語料分析的各類項目。[6]這兩個平臺使數字人文方法惠及了那些主要專長在中國語言和歷史而非計算機科學領域的學者。

中國曆代人物傳記資料庫(CBDB)是哈佛大學、中央研究院和北京大學的合作項目,提供了約500,000位中國歷史人物的結構化傳記數據,包括親屬關係、社會交往、官職任免以及籍貫和活動地點等信息。CBDB開闢了羣體傳記學(prosopography)領域,使學者能夠提出用傳統方法無法回答的問題:宋代科舉及第者的地理分佈如何?明代親族網絡如何影響政治仕途?這些問題需要處理超出任何個體學者能力的大型數據集,但藉助CBDB提供的計算工具即可得到處理。[7]

3. 人工智能與古典中文

大型語言模型(LLMs)——包括GPT-4、Claude以及專門構建的WenyanGPT等模型——的迅速發展,激發了學界對其應用於古典中文的強烈興趣。這些模型在自然語言處理方面展示了顯著能力,它們在古典中文領域的應用有望加速漢學研究的多個方面:自動翻譯、實體識別、文本對比以及典故和互文聯繫的辨識。[8]

WenyanGPT是一個2025年發佈的專門用於古典中文任務的語言模型,其訓練專門基於古典中文文本,旨在處理這種語言的獨特特徵——沒有標點、極端的一詞多義、依賴語境來消除歧義,以及典故和引用的密集網絡。[9]

儘管取得了這些進展,重大挑戰依然存在。正如第22章所討論的,古典中文給自動處理帶來了艱鉅的困難。這些困難不僅是技術性的,更是根本性的智識問題:它們反映了古典中文作爲一種語言的本質——它並非爲高效溝通而設計,而是爲了美學和哲學表達,其中多義性和典故性是特色而非缺陷。當前的人工智能系統能夠以越來越高的準確度處理古典中文文本,但無法以人類學術研究所需的深度和敏感性來詮釋它們。它們能以合理的可靠性識別命名實體,但無法評判這些實體在其歷史語境中的意義。它們能以尚可的準確度翻譯單個句子,但無法捕捉原文的文學品質、哲學深度或文化共鳴。

人工智能在漢學研究中最具建設性的應用方式可能是協作式而非替代式的。人工智能工具可以充當研究助手,執行文本處理的例行任務——分詞、實體識別、初步翻譯、參考文獻覈查——這些任務佔用了漢學家大量的工作時間。它們還可以充當發現工具,在大型文本語料庫中辨識傳統閱讀方式無法察覺的模式。但詮釋性工作——對意義、重要性和質量的評判——仍是人類學術的領地。這種協作模式在實踐中已開始形成:學者使用數字檢索工具定位相關段落,運用傳統語文學方法加以分析,使用人工智能翻譯生成初稿,然後憑藉自身的語言和文化知識對這些譯稿進行修訂。

4. 中國文學的機器翻譯

近期的基準測試研究評估了大型語言模型在翻譯古典中國詩歌方面的表現,考察了充分性(忠實於原意)、流暢性(譯文的自然度)和優美性(文學品質)。[10]結果頗有啓發。當前的大型語言模型在充分性和流暢性上取得了相當高的分數,但在優美性上始終不足——譯文缺乏區分優秀人工翻譯與尚可機器譯文的文學品質。這一差距反映了一個根本性侷限:這些系統能處理語言模式但無法體味審美品質。它們能翻譯詩歌的指稱內容,但無法傳達其音韻、意象和情感肌理。

現代中文與古典中文之間的機器翻譯性能差距依然顯著。現代中文語法較爲規範且擁有大量平行訓練數據,適合神經機器翻譯。古典中文則因其截然不同的語法、極端的一詞多義和文化密度而繼續構成嚴峻挑戰。2025年發表於《Scientific Reports》的一項研究提出了一種多智能體框架,將翻譯過程分解爲三個階段——詞級釋義、段落級生成和多維審校。該方法相對單一模型方法提升了翻譯質量,但譯文仍需大量人工後編輯才能達到學術標準。[11]

對漢學實踐而言,其影響喜憂參半。人工智能翻譯工具可以極大地加速那些具有重要歷史價值但因翻譯繁瑣而鮮受學術關注的例行文本——行政文書、法典、技術專論——的翻譯。然而,文學和哲學文本的翻譯——那些傳統上處於漢學翻譯核心的文本——仍然需要當前人工智能系統所缺乏的深厚文化和審美知識。風險在於,機器翻譯的可用性可能製造翻譯已被"解決"的假象,從而降低學生習得真正語言能力的動力。機遇在於,機器翻譯將使漢學家從例行工作中解放出來,使他們能夠專注於翻譯中最具智識價值且真正不可替代的詮釋性和創造性維度。

5. 數字檔案、開放獲取與計算分析

數字漢學資源的開放獲取運動是近年來最積極的進展之一。Ctext、CBETA和CBDB等主要數據庫均爲免費使用,消除了此前限制漢學研究材料獲取的經濟和制度障礙。這對發展中國家和規模較小的機構中可能缺乏專業館藏的學者尤爲有益。

歷史檔案的數字化——包括中國曆代正史、地方誌、科舉檔案、法律文書和私人信函——開闢了大量新的一手資料。中國歷史文獻數據庫和清代宮中奏摺數字化等項目使得過去需要長期駐留中國檔案館才能開展的研究成爲可能。與此同時,數字獲取也帶來了新問題:數字化文本的質量參差不齊,元數據往往不完整或不可靠,材料的巨大體量可能鼓勵廣度而犧牲深度。數字工具所使"遠讀"(distant reading)取代一直是漢學研究基礎的"細讀"(close reading),是一個真實的風險。最具建設性的方法是將兩者結合。

計算技術已被應用於中國文學和歷史研究中日益廣泛的課題。文體計量學——對文學風格的量化研究——被用於通過分析詞頻、句長和語法結構等模式來考察作者歸屬、年代判定和文本真僞等問題。[12]網絡分析作爲研究塑造中國文學和政治文化的社會及學術關係的工具已經興起,對宋代和明代的研究尤其富有成果,因爲豐富的傳記數據庫使得以前所未有的規模繪製社會網絡成爲可能。[13]GIS工具與歷史數據庫的結合使空間分析成爲可能,揭示了中國文化生產的地理維度——文學活動在特定城市的集中、文學潮流沿貿易路線和行政網絡的傳播。

這些計算方法產生了真正的學術洞見,但也引發了方法論問題。量化方法能否捕捉使一個文本具有歷史或文學意義的品質?網絡分析能否解釋爲何一位詩人寫出了偉大的詩歌,而另一位擁有類似社會關係的詩人卻不能?答案是:計算方法是辨識模式和生成假設的強大工具,但無法替代詮釋性工作。它們能告訴我們發生了什麼,卻不能告訴我們它爲什麼重要,或人們如何感受。

6. 人才培養、可持續性與未來

數字轉向對新一代漢學家的培養具有深遠影響。傳統課程——古典中文、語文學方法、文本分析——仍然不可或缺,但已不再足夠。研究生如今還需要數字方法的訓練:如何有效使用文本數據庫,如何設計計算分析,如何評估機器學習算法的結果。數所大學已開始開發整合漢學與數字訓練的課程體系。2025年舉辦的中國-普林斯頓數字人文工作坊將漢學家和數字人文學者匯聚一堂,共同培訓應用於中國歷史和文學材料的計算方法。哈佛、萊頓和臺灣大學也出現了類似的倡議。[14]

一個持續存在的挑戰是數字資源的可持續性。數字數據庫和工具需要持續的維護、更新和資金支持。當創建數據庫的學者退休時,數據庫可能廢棄不用;當經費耗盡時,服務器可能被關閉。學術界尚未建立可靠的機制來確保數字漢學資源的長期保存和可及性。這不僅是一個技術問題,更是一個制度問題:數字人文項目通常需要開發階段的啓動資金,同時也需要持續的維護資金——這種模式與大多數學術機構以項目爲基礎的資助結構難以兼容。

數字技術還爲國際學術合作創造了新的可能。中國和西方學者可以在共享數據庫上協同工作,無需同處一地即可爲共同平臺做出貢獻。這些合作有可能彌閤中國與西方學術傳統之間的鴻溝。與此同時,數據安全、知識產權和政治監控方面的顧慮可能使此類合作複雜化,尤其是考慮到第29章討論的政治緊張局勢。

從當前數字漢學的狀況中可以得出的最重要結論是:計算方法補充但不能取代傳統的人文學術研究。中國文本的閱讀、詮釋和翻譯;歷史語境的重建;文學品質的鑑賞;哲學意義的評判——這些活動需要一種不可化約的人類理解力,無論工具多麼精密都無法被自動化。漢學研究的未來不在於在傳統方法和計算方法之間做選擇,而在於將兩者結合起來。一位既能流利閱讀古典中文並以洞察力加以詮釋,又能運用數字工具檢索、分析和可視化文本數據的學者,將比純粹的語文學家或純粹的數字人文學者裝備更爲精良。這一領域面臨的挑戰正在於培養這樣的學者。

註釋

參考文獻

Bol, Peter K. "The China Historical GIS." Journal of Chinese History 4, no. 2 (2020).

De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.

Sturgeon, Donald. "The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, no. 1 (2021): 189–207.

"A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).

"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).

"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.

腳註

  1. Donald Sturgeon, “The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese,” Digital Scholarship in the Humanities。
  2. Donald Sturgeon, “Digital Humanities,” 中國哲學書電子化計劃網站(ctext.org/digital-humanities)。
  3. 中華電子佛典協會(CBETA),見 ai-humanities.com;Marcus Bingenheimer, “CBETA and the Future of Digital Buddhist Studies.”
  4. Peter K. Bol, “The China Historical GIS,” Journal of Chinese History 4, no. 2(2020)。
  5. Hilde De Weerdt, “Creating, Linking, and Analyzing Chinese and Korean Datasets: Digital Text Annotation in MARKUS and COMPARATIVUS.”
  6. Tu Hsiu-chih, “DocuSky, A Personal Digital Humanities Platform for Scholars,” Journal of Chinese History 4, no. 2。
  7. Peter K. Bol & Wen-chin Chang, “The China Biographical Database,” in Digital Humanities and East Asian Studies。
  8. 見本書第二十二章(翻譯)關於人工智能翻譯挑戰的論述。
  9. “WenyanGPT: A Large Language Model for Classical Chinese Tasks,” arXiv preprint(2025)。
  10. “Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance,” Proceedings of EMNLP(2025)。
  11. “A Multi Agent Classical Chinese Translation Method Based on Large Language Models,” Scientific Reports 15(2025)。
  12. 參見 Mark Edward Lewis & Curie Viragh, “Computational Stylistics and Chinese Literature,” Journal of Chinese History。
  13. Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China(Cambridge, MA: Harvard University Asia Center, 2015)。
  14. China-Princeton 數字人文工作坊 2025(chinesedh2025.eas.princeton.edu)。