History of Sinology/ru/Chapter 30
Глава 30: Цифровые гуманитарные науки и будущее синологических исследований
1. Введение
Изучение Китая всегда определялось технологиями, доступными для работы с китайскими текстами и их анализа. Изобретение бумаги, развитие ксилографической печати, создание великих энциклопедий и собраний сочинений — каждый новый шаг расширял круг текстовых материалов, доступных учёным, и изменял методы их исследования. Цифровая революция конца XX — начала XXI века представляет собой последнее и, пожалуй, наиболее глубокое из этих изменений.
Цифровые технологии изменили синологию двумя фундаментальными способами. Во-первых, они сделали беспрецедентный объём китайского текстового материала свободно доступным для учёных по всему миру. Базы данных, такие как Chinese Text Project (Ctext), Китайская буддийская электронная текстовая ассоциация (CBETA) и Китайская историческая географическая информационная система (CHGIS), предоставили учёным ресурсы, для доступа к которым прежде потребовались бы годы поездок в специализированные библиотеки и архивы. Во-вторых, они обеспечили новые инструменты анализа этих материалов — инструменты, способные осуществлять поиск, сортировку, сравнение, аннотирование и визуализацию текстовых данных со скоростью и в масштабах, далеко превосходящих возможности любого отдельного учёного.
Данная глава обозревает основные цифровые ресурсы и инструменты, доступные синологам, рассматривает методологические импликации компьютерных подходов к китайской истории и литературе, а также анализирует вызовы и возможности, которые искусственный интеллект открывает для будущего синологических исследований.
2. Цифровые текстовые базы данных
Chinese Text Project, основанный и поддерживаемый Дональдом Стёрджоном, является важнейшей открытой цифровой библиотекой домодерных китайских текстов. Он обеспечивает полнотекстовый доступ к практически всему корпусу традиционной китайской литературы, включая конфуцианскую и даосскую классику, династийные истории, основные философские тексты и обширный массив литературных, юридических и административных сочинений. Тексты полностью доступны для поиска, снабжены перекрёстными ссылками, параллельными переводами и аннотациями.[1]
До появления Ctext учёному, желавшему проследить конкретную фразу через всю китайскую литературную традицию, пришлось бы обратиться к десяткам печатных изданий — процесс, который мог занять недели или месяцы. Тот же поиск может быть теперь выполнен за секунды. Это коренным образом преобразило практику филологического исследования, позволив выявлять интертекстуальные связи, прослеживать эволюцию понятий и лексики, проверять точность текстовой передачи с эффективностью, ранее немыслимой. Ctext также предоставляет программный интерфейс (API), позволяющий учёным получать доступ к данным программным путём, что открывает возможности для исследований по автоматическому анализу текстов, способных обнаруживать закономерности словоупотребления и семантических изменений во всём корпусе домодерной китайской литературы.[2]
Китайская буддийская электронная текстовая ассоциация (CBETA), основанная на Тайване в 1998 году, оцифровала весь китайский буддийский канон — огромное собрание, включающее тысячи сутр, комментариев и трактатов. Колоссальный объём канона — свыше 100 миллионов китайских иероглифов — делал невозможным для любого отдельного учёного прочтение более чем малой его доли. Цифровые инструменты поиска теперь позволяют учёным находить конкретные фрагменты, выявлять цитаты и аллюзии, прослеживать передачу идей между текстами и проводить количественный анализ лексики и стиля.[3] Оцифровка текстов — не просто удобство, но методологический сдвиг: когда тексты существуют в цифровой форме, их можно искать, сортировать, сравнивать и анализировать способами, обнаруживающими закономерности и связи, невидимые при последовательном чтении.
Китайская историческая географическая информационная система (CHGIS), совместный проект Гарвардского университета и Фуданьского университета, запущенный в 2001 году, предоставляет географическую базу данных населённых пунктов и исторических административных единиц с 221 г. до н. э. по 1911 г. н. э. Она позволяет учёным наносить исторические данные на географическое пространство, обнаруживая пространственные измерения китайской истории, часто скрытые в нарративных описаниях. CHGIS оказалась особенно ценной для исследований административной истории, демографических изменений и географии литературного и культурного творчества.[4]
Платформа MARKUS, разработанная Хильдой де Верд в Лейденском университете, представляет собой инструмент аннотирования и анализа текстов, позволяющий историкам создавать наборы данных из первоисточников посредством автоматической идентификации и разметки имён собственных, географических названий, дат и официальных титулов в китайских текстах.[5] DocuSky, разработанная Национальным Тайваньским университетом, обеспечивает аналогичную, но более широкую платформу для индивидуальных исследований в сфере цифровых гуманитарных наук, с гибкой архитектурой, подходящей для проектов от изучения отдельных литературных произведений до масштабного анализа исторических корпусов.[6] Обе платформы сделали методы цифровых гуманитарных наук доступными для учёных, чья основная экспертиза лежит в области китайского языка и истории, а не информатики.
Китайская биографическая база данных (CBDB), совместный проект Гарвардского университета, Академии наук (Academia Sinica) и Пекинского университета, предоставляет структурированные биографические данные о приблизительно 500 000 лицах из китайской истории. Она включает информацию о родственных связях, социальных ассоциациях, чиновничьих должностях, местах происхождения и деятельности. CBDB открыла поле просопографии, позволив учёным задавать вопросы, на которые невозможно было ответить традиционными методами: каково было географическое распределение успешных соискателей на государственных экзаменах в эпоху Сун? Как родственные сети формировали политические карьеры в эпоху Мин? Эти вопросы требуют обработки больших массивов данных, превосходящих возможности любого отдельного учёного, но поддающихся решению с помощью предоставляемых CBDB вычислительных инструментов.[7]
3. Искусственный интеллект и классический китайский язык
Стремительное развитие больших языковых моделей (LLM) — включая GPT-4, Claude и специализированные модели вроде WenyanGPT — вызвало интенсивный интерес к их применению для работы с классическим китайским языком. Эти модели продемонстрировали заметные способности в обработке естественного языка, и их применение к классическому китайскому может ускорить ряд аспектов синологических исследований: автоматический перевод, распознавание именованных сущностей, текстологическое сравнение, выявление аллюзий и интертекстуальных связей.[8]
WenyanGPT — специализированная языковая модель для задач, связанных с классическим китайским, выпущенная в 2025 году, — была обучена специально на корпусе текстов на классическом китайском и предназначена для обработки его характерных особенностей: отсутствия пунктуации, крайней полисемии, зависимости от контекста для снятия неоднозначности, а также густой сети аллюзий и цитат.[9]
Несмотря на эти достижения, значительные трудности сохраняются. Как обсуждается в главе 22, классический китайский язык создаёт серьёзные препятствия для автоматической обработки. Эти трудности не являются чисто техническими — они носят фундаментально интеллектуальный характер: они отражают природу классического китайского как языка, созданного не для эффективной коммуникации, а для эстетического и философского выражения, в котором многозначность и аллюзивность суть достоинства, а не недостатки. Современные системы ИИ могут обрабатывать тексты на классическом китайском с возрастающей точностью, но не могут интерпретировать их с той глубиной и чуткостью, которых требует научное исследование. Они могут выявлять именованные сущности с приемлемой надёжностью, но не могут оценивать значимость этих сущностей в их историческом контексте. Они могут переводить отдельные предложения с приемлемой точностью, но не могут передать литературное качество, философскую глубину или культурный резонанс оригиналов.
Наиболее продуктивный подход к использованию ИИ в синологических исследованиях, по-видимому, будет кооперативным, а не заместительным. Инструменты ИИ могут служить исследовательскими помощниками, выполняя рутинные задачи обработки текста — токенизацию, распознавание сущностей, предварительный перевод, проверку ссылок, — поглощающие значительную часть времени синолога. Они могут также служить инструментами обнаружения, выявляя закономерности в больших текстовых корпусах, которые невозможно обнаружить при традиционном чтении. Но интерпретативная работа — оценка смысла, значимости и качества — остаётся прерогативой человеческой учёности. Эта кооперативная модель уже формируется на практике: учёные используют цифровые инструменты поиска для нахождения релевантных фрагментов, применяют традиционные филологические методы для их анализа, используют машинный перевод для создания предварительных версий, а затем дорабатывают эти версии, привлекая собственные лингвистические и культурные знания.
4. Машинный перевод китайской литературы
Недавние бенчмаркинговые исследования оценили производительность больших языковых моделей при переводе классической китайской поэзии, замеряя адекватность (верность смыслу), беглость (естественность изложения) и элегантность (литературное качество).[10] Результаты поучительны. Современные LLM достигают достаточно высоких показателей по адекватности и беглости, но неизменно уступают в элегантности — переводам не хватает литературного качества, отличающего хороший человеческий перевод от функционального машинного. Этот разрыв отражает фундаментальное ограничение: данные системы способны обрабатывать языковые модели, но не способны оценивать эстетические качества. Они могут перевести референциальное содержание стихотворения, но не его музыку, образность, эмоциональную фактуру.
Разрыв в качестве между машинным переводом современного и классического китайского остаётся значительным. Современный китайский, с его относительно регулярной грамматикой и обширным корпусом параллельных обучающих данных, хорошо подходит для нейронного машинного перевода. Классический китайский, с его радикально иной грамматикой, крайней полисемией и культурной насыщенностью, по-прежнему создаёт серьёзные трудности. Исследование 2025 года в Scientific Reports предложило мультиагентную структуру, декомпозирующую процесс перевода на три этапа — интерпретация на уровне слов, генерация на уровне абзацев и многомерная рецензия. Этот подход улучшил качество перевода по сравнению с одномодельными подходами, однако переводы по-прежнему требовали существенной человеческой постредактуры для достижения научных стандартов.[11]
Для синологической практики импликации неоднозначны. Инструменты машинного перевода могут кардинально ускорить перевод рутинных текстов — административных документов, правовых кодексов, технических трактатов, — представляющих большой исторический интерес, но остающихся без внимания учёных из-за монотонности перевода. Перевод же литературных и философских текстов — текстов, традиционно составлявших сердцевину синологического перевода — по-прежнему требует глубокого культурного и эстетического знания, которым современные системы ИИ не обладают. Риск состоит в том, что доступность машинного перевода создаст иллюзию решённости проблемы перевода, снижая мотивацию студентов к обретению подлинной лингвистической компетенции. Возможность же состоит в том, что машинный перевод освободит синологов от рутинной работы, позволяя сосредоточиться на интерпретативных и творческих аспектах перевода, которые являются наиболее интеллектуально вознаграждающими и подлинно незаменимыми.
5. Цифровые архивы, открытый доступ и компьютерный анализ
Движение к открытому доступу в области цифровых синологических ресурсов стало одним из наиболее позитивных явлений последних лет. Крупные базы данных, такие как Ctext, CBETA и CBDB, находятся в свободном доступе, устраняя финансовые и институциональные барьеры, ранее ограничивавшие доступ к исследовательским материалам по синологии. Это было особенно благотворно для учёных из развивающихся стран и малых учреждений, не располагающих специализированными библиотечными коллекциями.
Оцифровка исторических архивов — включая китайские династийные истории, местные описания (фанчжи), экзаменационные записи, правовые документы и личную переписку — открыла обширные новые массивы первоисточников. Проекты по типу Базы данных китайских исторических документов и оцифрованных дворцовых мемориалов эпохи Цин сделали возможными исследования, для которых прежде потребовались бы длительные поездки в китайские архивы. Вместе с тем цифровой доступ порождает новые проблемы: качество оцифрованных текстов сильно варьируется, метаданные часто неполны или ненадёжны, а сам объём материалов может поощрять широту в ущерб глубине. Существует реальный риск того, что «дистанционное чтение», ставшее возможным благодаря цифровым инструментам, вытеснит «внимательное чтение», всегда составлявшее основу синологического исследования. Наиболее продуктивный подход сочетает оба метода.
Вычислительные методы были применены к растущему кругу проблем в исследованиях китайской литературы и истории. Стилометрический анализ — количественное изучение литературного стиля — используется для исследования вопросов авторства, датировки и текстуальной подлинности посредством анализа частотности слов, длины предложений и грамматических структур.[12] Сетевой анализ стал инструментом изучения социальных и интеллектуальных связей, формировавших китайскую литературную и политическую культуру, и оказался особенно продуктивным для эпох Сун и Мин, где обширные биографические базы данных позволяют картографировать социальные сети в беспрецедентном масштабе.[13] Сочетание ГИС-инструментов с историческими базами данных позволило проводить пространственные анализы, выявляющие географические измерения китайского культурного производства — концентрацию литературной деятельности в определённых городах, распространение литературных тенденций вдоль торговых путей и административных маршрутов.
Эти вычислительные подходы дали подлинные научные результаты, но они же ставят методологические вопросы. Способны ли количественные методы уловить качества, делающие текст исторически или литературно значимым? Может ли сетевой анализ объяснить, почему один поэт создавал великую поэзию, тогда как другой, с аналогичными социальными связями, — нет? Ответ состоит в том, что вычислительные методы являются мощными инструментами для выявления закономерностей и формулирования гипотез, но не могут заменить интерпретативную работу. Они могут сказать нам, что произошло, но не почему это имело значение или как это переживалось.
6. Подготовка кадров, устойчивость и будущее
Цифровой поворот имеет глубокие последствия для подготовки следующего поколения синологов. Традиционный учебный план — классический китайский язык, филологические методы, текстуальный анализ — остаётся необходимым, но уже недостаточным. Аспирантам теперь необходима также подготовка в области цифровых методов: как эффективно использовать текстовые базы данных, как проектировать компьютерные анализы, как оценивать результаты алгоритмов машинного обучения. Ряд университетов начал разработку учебных программ, интегрирующих синологическую и цифровую подготовку. Семинар China-Princeton по цифровым гуманитарным наукам, проведённый в 2025 году, объединил синологов и специалистов по цифровым гуманитарным наукам для совместной подготовки в области вычислительных методов, применяемых к китайским историческим и литературным материалам. Аналогичные инициативы возникли в Гарварде, Лейдене и Национальном Тайваньском университете.[14]
Постоянной проблемой является устойчивость цифровых ресурсов. Цифровые базы данных и инструменты требуют непрерывного обслуживания, обновления и финансирования. Когда учёный, создавший базу данных, выходит на пенсию, база данных может прийти в запустение; когда финансирование иссякает, серверы могут быть отключены. Научное сообщество ещё не выработало надёжных механизмов обеспечения долгосрочного сохранения и доступности цифровых синологических ресурсов. Эта проблема носит не только технический, но и институциональный характер: проекты в области цифровых гуманитарных наук, как правило, требуют начального финансирования для разработки и постоянного финансирования для поддержки — модель, плохо вписывающаяся в проектные структуры финансирования большинства академических учреждений.
Цифровые технологии также создают новые возможности для международного научного сотрудничества. Китайские и западные учёные могут работать совместно над общими базами данных и вносить вклад в общие платформы без физической близости. Такое сотрудничество способно преодолеть разрыв между китайской и западной учёными традициями. В то же время опасения по поводу безопасности данных, интеллектуальной собственности и политического наблюдения могут осложнить подобное сотрудничество, особенно с учётом политической напряжённости, обсуждавшейся в главе 29.
Важнейший вывод из текущего состояния цифровой синологии состоит в том, что вычислительные методы дополняют, но не заменяют традиционную гуманитарную учёность. Чтение, интерпретация и перевод китайских текстов; реконструкция исторических контекстов; оценка литературного качества; постижение философской значимости — все эти виды деятельности требуют формы понимания, которая является неустранимо человеческой и не может быть автоматизирована, сколь бы совершенными ни становились инструменты. Будущее синологических исследований заключается не в выборе между традиционными и вычислительными методами, а в их сочетании. Учёный, способный свободно читать классический китайский и проницательно его интерпретировать, одновременно используя цифровые инструменты для поиска, анализа и визуализации текстовых данных, будет подготовлен лучше, чем чистый филолог или чистый специалист по цифровым гуманитарным наукам. Задача для данной области — подготовка таких учёных.
Примечания
Библиография
Bol, Peter K. "The China Historical GIS." Journal of Chinese History 4, no. 2 (2020).
De Weerdt, Hilde. Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China. Cambridge: Harvard University Asia Center, 2015.
Sturgeon, Donald. "The Chinese Text Project: A Dynamic Digital Library of Pre-modern Chinese." Digital Scholarship in the Humanities 36, no. 1 (2021): 189–207.
"A Multi Agent Classical Chinese Translation Method Based on Large Language Models." Scientific Reports 15 (2025).
"Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance." Proceedings of EMNLP (2025).
"WenyanGPT: A Large Language Model for Classical Chinese Tasks." arXiv preprint, 2025.
Ссылки
- ↑ David B. Honey, Incense at the Altar: Pioneering Sinologists and the Development of Classical Chinese Philology (New Haven: American Oriental Society, 2001), preface, xxii.
- ↑ Honey, Incense at the Altar, preface, x.
- ↑ Zhang Xiping, lecture 1, "Introduction to Western Sinology Studies," pp. 165–168.
- ↑ Peter K. Bol, "The China Historical GIS," Journal of Chinese History 4, no. 2 (2020).
- ↑ Hilde De Weerdt, "MARKUS: Text Analysis and Reading Platform," in Journal of Chinese History 4, no. 2 (2020); see also the Digital Humanities guide at University of Chicago Library.
- ↑ Tu Hsiu-chih, "DocuSky, A Personal Digital Humanities Platform for Scholars," Journal of Chinese History 4, no. 2 (2020).
- ↑ Peter K. Bol and Wen-chin Chang, "The China Biographical Database," in Digital Humanities and East Asian Studies (Leiden: Brill, 2020).
- ↑ See Chapter 22 (Translation) of this volume on AI translation challenges.
- ↑ "WenyanGPT: A Large Language Model for Classical Chinese Tasks," arXiv preprint (2025).
- ↑ "Benchmarking LLMs for Translating Classical Chinese Poetry: Evaluating Adequacy, Fluency, and Elegance," Proceedings of EMNLP (2025).
- ↑ "A Multi Agent Classical Chinese Translation Method Based on Large Language Models," Scientific Reports 15 (2025).
- ↑ See, e.g., Mark Edward Lewis and Curie Viragh, "Computational Stylistics and Chinese Literature," Journal of Chinese Literature and Culture 9, no. 1 (2022).
- ↑ Hilde De Weerdt, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China (Cambridge: Harvard University Asia Center, 2015).
- ↑ China-Princeton Digital Humanities Workshop 2025 (chinesedh2025.eas.princeton.edu).