History of Sinology/de/Chapter 30
Kapitel 30: Digital Humanities und die Zukunft der sinologischen Forschung
1. Einleitung
Das Studium Chinas wurde stets von den Technologien geprägt, die für den Zugang zu chinesischen Texten und deren Analyse zur Verfügung standen. Die Erfindung des Papiers, die Entwicklung des Holztafeldrucks, die Schaffung großer Enzyklopädien und Sammelwerke — jeder Fortschritt erweiterte die Bandbreite der den Gelehrten zugänglichen Textmaterialien und veränderte die Methoden, mit denen sie diese untersuchten. Die digitale Revolution des späten zwanzigsten und frühen einundzwanzigsten Jahrhunderts stellt die jüngste — und wohl weitreichendste — dieser Veränderungen dar.
Digitale Technologien haben die Sinologie in zweifacher grundlegender Weise verändert. Erstens haben sie ein beispielloses Volumen an chinesischem Textmaterial für Gelehrte weltweit frei zugänglich gemacht. Datenbanken wie das Chinese Text Project (Ctext), die Chinese Buddhist Electronic Text Association (CBETA) und das China Historical Geographic Information System (CHGIS) haben dem Gelehrten Ressourcen an die Hand gegeben, deren Erschließung zuvor jahrelange Reisen zu spezialisierten Bibliotheken und Archiven erfordert hätte. Zweitens haben sie neue Werkzeuge für die Analyse dieser Materialien bereitgestellt — Werkzeuge, die Textdaten mit einer Geschwindigkeit und in einem Maßstab durchsuchen, sortieren, vergleichen, annotieren und visualisieren können, die weit über die Kapazitäten jedes einzelnen Gelehrten hinausgehen.
Dieses Kapitel gibt einen Überblick über die wichtigsten digitalen Ressourcen und Werkzeuge für Sinologen, untersucht die methodologischen Implikationen computergestützter Ansätze in der chinesischen Geschichte und Literatur und erwägt die Herausforderungen und Möglichkeiten, die die künstliche Intelligenz für die Zukunft der sinologischen Forschung bietet.
2. Digitale Textdatenbanken
Das Chinese Text Project, gegründet und betrieben von Donald Sturgeon, ist die bedeutendste frei zugängliche digitale Bibliothek vormoderner chinesischer Texte. Es bietet Volltextzugang zu praktisch dem gesamten Korpus der traditionellen chinesischen Literatur, einschließlich der konfuzianischen und daoistischen Klassiker, der dynastischen Geschichtswerke, der großen philosophischen Texte und eines umfangreichen Bestands an literarischen, juristischen und administrativen Schriften. Die Texte sind vollständig durchsuchbar, querverwiesen und mit parallelen Übersetzungen und Annotationen versehen.[1]
Vor Ctext hätte ein Gelehrter, der eine bestimmte Wendung durch die chinesische Literaturgeschichte verfolgen wollte, Dutzende gedruckter Ausgaben konsultieren müssen — ein Prozess, der Wochen oder Monate hätte dauern können. Dieselbe Suche lässt sich nun in Sekunden abschließen. Dies hat die Praxis der philologischen Forschung umgestaltet und ermöglicht es, intertextuelle Verbindungen zu identifizieren, die Entwicklung von Konzepten und Vokabular nachzuverfolgen und die Genauigkeit von Textüberlieferungen mit einer Effizienz zu überprüfen, die zuvor undenkbar war. Ctext stellt zudem eine Programmierschnittstelle (API) bereit, die es Gelehrten erlaubt, programmatisch auf seine Daten zuzugreifen und Text-Mining-Studien durchzuführen, die Muster der Wortverwendung und des semantischen Wandels über das gesamte Korpus der vormodernen chinesischen Literatur hinweg analysieren können.[2]
Die Chinese Buddhist Electronic Text Association (CBETA), 1998 in Taiwan gegründet, hat den gesamten chinesischen buddhistischen Kanon digitalisiert — eine riesige Sammlung mit Tausenden von Sutren, Kommentaren und Abhandlungen. Der schiere Umfang des Kanons — über 100 Millionen chinesische Schriftzeichen — machte es für jeden einzelnen Gelehrten unmöglich, mehr als einen kleinen Bruchteil zu lesen. Digitale Suchwerkzeuge erlauben es Gelehrten nun, bestimmte Passagen zu lokalisieren, Zitate und Anspielungen zu identifizieren, die Übermittlung von Ideen über Texte hinweg zu verfolgen und quantitative Analysen von Wortschatz und Stil durchzuführen.[3] Die Digitalisierung von Texten ist nicht nur eine Erleichterung, sondern ein methodologischer Wandel: Wenn Texte in digitaler Form vorliegen, können sie auf Weisen durchsucht, sortiert, verglichen und analysiert werden, die Muster und Zusammenhänge aufdecken, die beim sequentiellen Lesen unsichtbar bleiben.
Das China Historical Geographic Information System (CHGIS), ein Gemeinschaftsprojekt der Harvard University und der Fudan-Universität, das 2001 ins Leben gerufen wurde, stellt eine geographische Datenbank besiedelter Orte und historischer Verwaltungseinheiten von 221 v. Chr. bis 1911 n. Chr. bereit. Es ermöglicht Gelehrten, historische Daten auf den geographischen Raum abzubilden und so räumliche Dimensionen der chinesischen Geschichte sichtbar zu machen, die in narrativen Darstellungen oft verborgen bleiben. Das CHGIS hat sich als besonders wertvoll für Studien zur Verwaltungsgeschichte, zum demographischen Wandel und zur Geographie literarischer und kultureller Produktion erwiesen.[4]
Die MARKUS-Plattform, entwickelt von Hilde De Weerdt an der Universität Leiden, ist ein Werkzeug für Textannotation und -analyse, das es Historikern ermöglicht, Datensätze aus Primärquellen zu erstellen, indem Personennamen, Ortsnamen, Daten und Amtstitel in chinesischen Texten automatisch identifiziert und markiert werden.[5] DocuSky, entwickelt an der National Taiwan University, bietet eine ähnliche, aber breiter angelegte Plattform für persönliche Digital-Humanities-Forschung, mit einer flexiblen Architektur, die sich für Projekte vom Studium einzelner literarischer Werke bis hin zu groß angelegten Analysen historischer Korpora eignet.[6] Beide Plattformen haben Digital-Humanities-Methoden für Gelehrte zugänglich gemacht, deren primäre Expertise in der chinesischen Sprache und Geschichte liegt und nicht in der Informatik.
Die China Biographical Database (CBDB), ein Gemeinschaftsprojekt der Harvard University, der Academia Sinica und der Peking-Universität, stellt strukturierte biographische Daten zu etwa 500.000 Personen aus der chinesischen Geschichte bereit. Sie enthält Informationen über Verwandtschaftsbeziehungen, soziale Verbindungen, Ämter sowie Herkunfts- und Wirkungsorte. Die CBDB hat das Feld der Prosopographie erschlossen und ermöglicht es Gelehrten, Fragen zu stellen, die mit traditionellen Methoden unmöglich zu beantworten wären: Wie war die geographische Verteilung der erfolgreichen Prüfungskandidaten in der Song-Dynastie? Wie prägten Verwandtschaftsnetzwerke die politischen Karrieren in der Ming-Zeit? Diese Fragen erfordern die Verarbeitung großer Datensätze, die die Kapazität jedes einzelnen Gelehrten übersteigen, aber mit den computergestützten Werkzeugen der CBDB bearbeitet werden können.[7]
3. KI und klassisches Chinesisch
Die rasante Entwicklung großer Sprachmodelle (LLMs) — darunter GPT-4, Claude und speziell entwickelte Modelle wie WenyanGPT — hat ein starkes Interesse an ihrer Anwendung auf das klassische Chinesisch geweckt. Diese Modelle haben bemerkenswerte Fähigkeiten in der natürlichen Sprachverarbeitung gezeigt, und ihre Anwendung auf das klassische Chinesisch könnte mehrere Aspekte der sinologischen Forschung beschleunigen: automatisierte Übersetzung, Entitätenerkennung, Textvergleich sowie die Identifikation von Anspielungen und intertextuellen Bezügen.[8]
WenyanGPT, ein spezialisiertes Sprachmodell für Aufgaben im klassischen Chinesisch, das 2025 veröffentlicht wurde, wurde eigens auf klassischen chinesischen Texten trainiert und ist darauf ausgelegt, die besonderen Merkmale dieser Sprache zu bewältigen — ihr Fehlen von Interpunktion, ihre extreme Polysemie, ihre Abhängigkeit vom Kontext zur Disambiguierung und ihr dichtes Geflecht von Anspielungen und Zitaten.[9]
Trotz dieser Fortschritte bestehen erhebliche Herausforderungen fort. Wie in Kapitel 22 erörtert, stellt das klassische Chinesisch die automatisierte Verarbeitung vor gewaltige Schwierigkeiten. Diese Schwierigkeiten sind nicht bloß technischer, sondern fundamental intellektueller Natur: Sie spiegeln das Wesen des klassischen Chinesisch als einer Sprache wider, die nicht auf effiziente Kommunikation, sondern auf ästhetischen und philosophischen Ausdruck angelegt ist, in der Mehrdeutigkeit und Anspielungsreichtum eher Vorzüge als Mängel sind. Heutige KI-Systeme können klassische chinesische Texte mit zunehmender Genauigkeit verarbeiten, aber sie können sie nicht mit der Tiefe und Sensibilität interpretieren, die menschliche Forschung erfordert. Sie können benannte Entitäten mit annehmbarer Zuverlässigkeit identifizieren, aber sie können die Bedeutung dieser Entitäten in ihrem historischen Kontext nicht beurteilen. Sie können einzelne Sätze mit passabler Genauigkeit übersetzen, aber sie können die literarische Qualität, die philosophische Tiefe oder die kulturelle Resonanz der Originale nicht einfangen.
Der produktivste Ansatz für KI in der sinologischen Forschung dürfte ein kollaborativer und kein substitutiver sein. KI-Werkzeuge können als Forschungsassistenten dienen, die Routineaufgaben der Textverarbeitung übernehmen — Tokenisierung, Entitätenerkennung, vorläufige Übersetzung, Referenzprüfung —, die einen großen Teil der Arbeitszeit des Sinologen beanspruchen. Sie können auch als Entdeckungswerkzeuge dienen, die Muster über große Textkorpora hinweg identifizieren, die beim traditionellen Lesen unmöglich zu erkennen wären. Doch die interpretatorische Arbeit — die Bewertung von Bedeutung, Tragweite und Qualität — bleibt die Domäne menschlicher Forschung. Dieses kollaborative Modell zeichnet sich in der Praxis bereits ab: Gelehrte nutzen digitale Suchwerkzeuge, um relevante Passagen zu lokalisieren, wenden traditionelle philologische Methoden zu deren Analyse an, verwenden KI-Übersetzung zur Erstellung vorläufiger Fassungen und überarbeiten diese Fassungen dann mit ihrer eigenen sprachlichen und kulturellen Kenntnis.
4. Maschinelle Übersetzung chinesischer Literatur
Jüngste Benchmark-Studien haben die Leistung großer Sprachmodelle bei der Übersetzung klassischer chinesischer Dichtung evaluiert und dabei Adäquatheit (Bedeutungstreue), Flüssigkeit (Natürlichkeit der Wiedergabe) und Eleganz (literarische Qualität) bewertet.[10] Die Ergebnisse sind aufschlussreich. Aktuelle LLMs erzielen bei Adäquatheit und Flüssigkeit recht hohe Werte, schneiden aber bei der Eleganz durchweg schlechter ab — den Übersetzungen fehlt die literarische Qualität, die eine gute menschliche Übersetzung von einer brauchbaren maschinellen Wiedergabe unterscheidet. Diese Lücke spiegelt eine grundlegende Limitation wider: Diese Systeme können sprachliche Muster verarbeiten, aber keine ästhetischen Qualitäten würdigen. Sie können den referentiellen Inhalt eines Gedichts übersetzen, nicht aber seine Musik, seine Bildhaftigkeit, seine emotionale Textur.
Der Leistungsunterschied zwischen der maschinellen Übersetzung modernen und klassischen Chinesisch bleibt erheblich. Modernes Chinesisch, mit seiner relativ regelmäßigen Grammatik und seinem umfangreichen Bestand an parallelen Trainingsdaten, ist für die neuronale maschinelle Übersetzung gut geeignet. Klassisches Chinesisch, mit seiner radikal anderen Grammatik, extremen Polysemie und kulturellen Dichte, bereitet weiterhin schwerwiegende Schwierigkeiten. Eine Studie aus dem Jahr 2025 in Scientific Reports schlug einen Multi-Agenten-Rahmen vor, der den Übersetzungsprozess in drei Stufen zerlegt — Interpretation auf Wortebene, Generierung auf Absatzebene und mehrdimensionale Überprüfung. Dieser Ansatz verbesserte die Übersetzungsqualität gegenüber Einzelmodell-Ansätzen, doch die Übersetzungen erforderten nach wie vor erhebliche menschliche Nachbearbeitung, um wissenschaftliche Standards zu erreichen.[11]
Für die sinologische Praxis sind die Implikationen gemischt. KI-Übersetzungswerkzeuge können die Übersetzung von Routinetexten — Verwaltungsdokumenten, Gesetzeskodizes, technischen Abhandlungen — dramatisch beschleunigen, die von großem historischem Interesse sind, aber bisher wenig wissenschaftliche Aufmerksamkeit erhalten haben, weil ihre Übersetzung mühsam ist. Die Übersetzung literarischer und philosophischer Texte hingegen — der Texte, die traditionell im Zentrum der sinologischen Übersetzungsarbeit stehen — erfordert weiterhin das tiefe kulturelle und ästhetische Wissen, das heutigen KI-Systemen fehlt. Die Gefahr besteht darin, dass die Verfügbarkeit maschineller Übersetzung die Illusion erzeugt, Übersetzen sei ein gelöstes Problem, und so den Anreiz für Studierende verringert, genuinen sprachlichen Kompetenz zu erwerben. Die Chance liegt darin, dass maschinelle Übersetzung Sinologen von Routinearbeit befreit und es ihnen erlaubt, sich auf die interpretatorischen und kreativen Dimensionen des Übersetzens zu konzentrieren, die intellektuell am lohnendsten und wahrhaft unersetzlich sind.
5. Digitale Archive, Open Access und computergestützte Analyse
Die Bewegung hin zu Open Access bei digitalen sinologischen Ressourcen war eine der positivsten Entwicklungen der letzten Jahre. Große Datenbanken wie Ctext, CBETA und CBDB sind frei verfügbar, wodurch die finanziellen und institutionellen Barrieren beseitigt werden, die zuvor den Zugang zu sinologischen Forschungsmaterialien einschränkten. Dies war besonders vorteilhaft für Gelehrte in Entwicklungsländern und an kleineren Institutionen, die möglicherweise keinen Zugang zu spezialisierten Bibliotheksbeständen haben.
Die Digitalisierung historischer Archive — einschließlich der chinesischen dynastischen Geschichtswerke, Lokalchroniken, Prüfungsunterlagen, Rechtsdokumente und persönlichen Korrespondenz — hat umfangreiche neue Bestände an Primärquellenmaterial erschlossen. Projekte wie die Chinese Historical Documents Database und die digitalisierten Palastmemoranden der Qing-Dynastie haben es ermöglicht, Forschungen durchzuführen, die zuvor längere Aufenthalte in chinesischen Archiven erfordert hätten. Zugleich wirft der digitale Zugang neue Probleme auf: Die Qualität digitalisierter Texte variiert erheblich, Metadaten sind oft unvollständig oder unzuverlässig, und das schiere Volumen des Materials kann Breite auf Kosten von Tiefe begünstigen. Es besteht eine reale Gefahr, dass das durch digitale Werkzeuge ermöglichte „Distant Reading" das „Close Reading" verdrängt, das stets das Fundament sinologischer Forschung war. Der produktivste Ansatz kombiniert beide Methoden.
Computergestützte Techniken wurden auf eine wachsende Palette von Problemen in der chinesischen Literatur- und Geschichtswissenschaft angewandt. Die Stilometrie — die quantitative Untersuchung des literarischen Stils — wurde eingesetzt, um Fragen der Autorschaft, Datierung und Textechtheit zu untersuchen, indem Muster der Wortfrequenz, Satzlänge und grammatikalischen Struktur analysiert werden.[12] Die Netzwerkanalyse hat sich als Werkzeug zur Untersuchung der sozialen und intellektuellen Beziehungen etabliert, die die chinesische literarische und politische Kultur prägten, und war besonders ertragreich für die Song- und Ming-Dynastie, wo umfangreiche biographische Datenbanken es ermöglichen, soziale Netzwerke in einem nie dagewesenen Umfang zu kartieren.[13] Die Kombination von GIS-Werkzeugen mit historischen Datenbanken hat räumliche Analysen ermöglicht, die die geographischen Dimensionen der chinesischen Kulturproduktion aufdecken — die Konzentration literarischer Aktivität in bestimmten Städten, die Ausbreitung literarischer Trends entlang von Handelsrouten und Verwaltungskreisläufen.
Diese computergestützten Ansätze haben genuine Erkenntnisse hervorgebracht, werfen aber auch methodologische Fragen auf. Können quantitative Methoden die Qualitäten erfassen, die einen Text historisch oder literarisch bedeutsam machen? Kann die Netzwerkanalyse erklären, warum ein Dichter große Dichtung schrieb, während ein anderer mit ähnlichen sozialen Verbindungen dies nicht tat? Die Antwort ist, dass computergestützte Methoden leistungsstarke Werkzeuge für die Identifikation von Mustern und die Generierung von Hypothesen sind, aber die interpretatorische Arbeit nicht ersetzen können. Sie können uns sagen, was geschehen ist, aber nicht, warum es wichtig war oder wie es sich angefühlt hat.
6. Ausbildung, Nachhaltigkeit und die Zukunft
Die digitale Wende hat tiefgreifende Auswirkungen auf die Ausbildung der nächsten Generation von Sinologen. Das traditionelle Curriculum — klassische chinesische Sprache, philologische Methoden, Textanalyse — bleibt unverzichtbar, reicht aber allein nicht mehr aus. Doktoranden brauchen heute auch eine Ausbildung in digitalen Methoden: wie man Textdatenbanken effektiv nutzt, wie man computergestützte Analysen konzipiert, wie man die Ergebnisse von Algorithmen des maschinellen Lernens bewertet. Mehrere Universitäten haben begonnen, Curricula zu entwickeln, die sinologische und digitale Ausbildung integrieren. Der China-Princeton Digital Humanities Workshop, der 2025 stattfand, brachte Sinologen und Digital-Humanities-Spezialisten zur gemeinsamen Schulung in computergestützten Methoden zusammen, die auf chinesische historische und literarische Materialien angewandt werden. Ähnliche Initiativen sind in Harvard, Leiden und an der National Taiwan University entstanden.[14]
Eine anhaltende Herausforderung ist die Nachhaltigkeit digitaler Ressourcen. Digitale Datenbanken und Werkzeuge erfordern laufende Wartung, Aktualisierung und Finanzierung. Wenn der Gelehrte, der eine Datenbank geschaffen hat, in den Ruhestand tritt, kann die Datenbank in Vergessenheit geraten; wenn die Finanzierung ausläuft, können Server abgeschaltet werden. Die Wissenschaftsgemeinschaft hat noch keine verlässlichen Mechanismen entwickelt, um die langfristige Erhaltung und Zugänglichkeit digitaler sinologischer Ressourcen sicherzustellen. Dieses Problem ist nicht nur technischer, sondern auch institutioneller Natur: Digital-Humanities-Projekte erfordern typischerweise eine Anschubfinanzierung für die Entwicklung, aber auch eine laufende Finanzierung für die Wartung — ein Modell, das schlecht zu den projektbasierten Förderstrukturen der meisten akademischen Institutionen passt.
Digitale Technologien schaffen auch neue Möglichkeiten für die internationale wissenschaftliche Zusammenarbeit. Chinesische und westliche Gelehrte können an gemeinsamen Datenbanken arbeiten und zu gemeinsamen Plattformen beitragen, ohne physisch beieinander sein zu müssen. Diese Kooperationen haben das Potenzial, die Kluft zwischen chinesischen und westlichen Gelehrtentraditionen zu überbrücken. Zugleich können Bedenken hinsichtlich Datensicherheit, geistigem Eigentum und politischer Überwachung solche Kooperationen erschweren, insbesondere angesichts der in Kapitel 29 erörterten politischen Spannungen.
Die wichtigste Schlussfolgerung, die aus dem gegenwärtigen Stand der digitalen Sinologie zu ziehen ist, lautet: Computergestützte Methoden ergänzen, ersetzen aber nicht die traditionelle geisteswissenschaftliche Forschung. Das Lesen, Interpretieren und Übersetzen chinesischer Texte; die Rekonstruktion historischer Kontexte; die Würdigung literarischer Qualität; die Beurteilung philosophischer Bedeutung — diese Tätigkeiten erfordern eine Form des Verstehens, die irreduzibel menschlich ist und nicht automatisiert werden kann, wie ausgereift die Werkzeuge auch werden mögen. Die Zukunft der sinologischen Forschung liegt nicht in der Wahl zwischen traditionellen und computergestützten Methoden, sondern in deren Kombination. Der Gelehrte, der klassisches Chinesisch flüssig lesen und mit Einsicht interpretieren kann und zugleich digitale Werkzeuge zum Durchsuchen, Analysieren und Visualisieren von Textdaten einsetzt, wird besser ausgestattet sein als der reine Philologe oder der reine Digital Humanist. Die Herausforderung für das Fach besteht darin, solche Gelehrte auszubilden.
Anmerkungen
Bibliographie
Bol, Peter K. „The China Historical GIS." Journal of Chinese History 4, Nr. 2 (2020).
De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.
Sturgeon, Donald. „The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, Nr. 1 (2021): 189–207.
„A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).
„Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).
„WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv-Preprint, 2025.
Einzelnachweise
- ↑ David B. Honey, Incense at the Altar: Pioneering Sinologists and the Development of Classical Chinese Philology (New Haven: American Oriental Society, 2001), Vorwort, xxii.
- ↑ Honey, Incense at the Altar, Vorwort, x.
- ↑ Zhang Xiping, Vorlesung 1, „Introduction to Western Sinology Studies", S. 165–168.
- ↑ Peter K. Bol, „The China Historical GIS", Journal of Chinese History 4, Nr. 2 (2020).
- ↑ Hilde De Weerdt, „MARKUS: Text Analysis and Reading Platform", in Journal of Chinese History 4, Nr. 2 (2020); vgl. auch den Digital-Humanities-Leitfaden der Bibliothek der University of Chicago.
- ↑ Tu Hsiu-chih, „DocuSky, A Personal Digital Humanities Platform for Scholars", Journal of Chinese History 4, Nr. 2 (2020).
- ↑ Peter K. Bol und Wen-chin Chang, „The China Biographical Database", in Digital Humanities and East Asian Studies (Leiden: Brill, 2020).
- ↑ Vgl. Kapitel 22 (Übersetzung) dieses Bandes zu den Herausforderungen der KI-Übersetzung.
- ↑ „WenyanGPT: A Large Language Model for Classical Chinese Tasks", arXiv-Preprint (2025).
- ↑ „Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance", Proceedings of EMNLP (2025).
- ↑ „A Multi Agent Classical Chinese Translation Method Based on Large Language Models", Scientific Reports 15 (2025).
- ↑ Vgl. z. B. Mark Edward Lewis und Curie Viragh, „Computational Stylistics and Chinese Literature", Journal of Chinese Literature and Culture 9, Nr. 1 (2022).
- ↑ Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China (Cambridge: Harvard University Asia Center, 2015).
- ↑ China-Princeton Digital Humanities Workshop 2025 (chinesedh2025.eas.princeton.edu).