Rethinking Higher Education/de/Chapter 5
Fremdsprachenlernen mit und ohne KI: Eine empirische Vergleichsstudie
Martin Woesler
Hunan-Normaluniversität
Zusammenfassung
Diese Studie vergleicht die selbstberichteten Lernergebnisse, Motivationen und Einstellungen von 133 chinesischen Studierenden beim Erlernen einer Fremdsprache – 85 in einer KI-gestützten Gruppe und 48 in einer traditionellen Gruppe mit menschlichem Lehrenden – über einen Zeitraum von etwa einem Monat. Gestützt auf ein umfassendes Befragungsinstrument mit 126 Variablen, das Demographie, Lernmethoden, sensorische Modalitätspräferenzen, Einstellungen zu KI in der Bildung und selbsteingeschätzte Verbesserung in zehn Sprachfertigkeitsbereichen erfasst, ergibt die Studie ein komplexes Bild, das sowohl techno-optimistischen als auch techno-pessimistischen Narrativen widerspricht. Die Gruppe mit menschlichem Lehrenden berichtete höhere Gesamtverbesserung (63,2% vs. 51,9%), doch die KI-Gruppe berichtete größere Zugewinne beim Sprechen und Hörverstehen – genau jene interaktiven Fertigkeiten, für deren Übung KI-Chatbots konzipiert sind. Beide Gruppen äußerten starke Präferenz für menschliche Lehrende, doch die KI-Gruppe schätzte zugleich die Verfügbarkeit, Geschwindigkeit und druckfreie Umgebung der KI. Die Einstellungen zur KI-Autonomie waren in beiden Gruppen vorsichtig: Über 70% stimmten zu, dass KI ethischer Kontrolle bedarf, und weniger als 20% befürworteten eine Dominanz der KI über den Menschen. Diese Befunde tragen zur wachsenden Literatur über KI in der Sprachbildung bei und werden in Bezug auf die qualitativen Befunde von Fang Lu (dieser Band) und den philosophischen Rahmen von Ole Döring (dieser Band) diskutiert.
Schlüsselwörter: KI-gestütztes Sprachlernen, Vergleichsstudie, Fremdsprachendidaktik, Mensch-KI-Interaktion, digitale Bildung, sensorische Modalitäten, Studierendeneinstellungen, China, Europäische Union, Komplementaritätsthese
1. Einleitung
Die Integration Künstlicher Intelligenz in die Sprachbildung hat sich mit bemerkenswerter Geschwindigkeit von spekulativem Futurismus zur täglichen Praxis entwickelt. Chinesische Studierende nutzen 2025 routinemäßig KI-Chatbots – ChatGPT, Kimi, DeepSeek, Doubao – als Gesprächspartner, Aussprachetrainer, Grammatikprüfer und Vokabeltutor. Doch die empirische Evidenz dafür, ob KI-gestütztes Sprachlernen bessere Ergebnisse produziert als traditioneller menschlicher Unterricht, bleibt überraschend dünn. Die meisten existierenden Studien sind kleinmaßstäblich, konzentrieren sich auf ein einzelnes KI-Werkzeug oder messen Ergebnisse über sehr kurze Zeiträume. Was fehlt, ist eine Vergleichsstudie, die nicht nur Lernergebnisse, sondern auch die motivationalen, einstellungsbezogenen und wahrnehmungsbezogenen Dimensionen KI-gestützten gegenüber menschlich unterrichteten Sprachlernens untersucht.
Diese Studie adressiert diese Lücke. Wir befragten 133 chinesische Studierende – 85, die eine Fremdsprache mit KI-Unterstützung lernten oder dieser zugewiesen wurden, und 48, die mit menschlichen Lehrenden lernten – nach etwa einem Monat des Studiums. Das Befragungsinstrument mit 126 Variablen erfasst Demographie, Vorwissen an Sprachkenntnissen, tägliche Lernzeit, Gründe für die Gruppenwahl, KI-Nutzungsmethoden, Wahrnehmung der Feedbackqualität, selbsteingeschätzte Verbesserung in zehn spezifischen Fertigkeitsbereichen, die Bedeutung von zwölf sensorischen und sozialen Modalitäten beim Lernen und Einstellungen zu vierzehn Aspekten von KI in Bildung und Gesellschaft.
Unsere Befunde sind eingebettet in eine wachsende Forschungslandschaft zur digitalen Bildung in China und Europa, einschließlich der qualitativen Fallstudien von Fang Lu (dieser Band), die die Auswirkungen von KI auf kritisches Denken in chinesischen Sprachkursen am Boston College untersuchte, und der philosophischen Analyse von Ole Döring (dieser Band), der die konzeptuellen Grundlagen „Künstlicher Intelligenz" in pädagogischen Kontexten hinterfragt. Wo Fang Lu Tiefe durch Einzelfälle und Döring philosophische Breite bietet, tragen wir Breite durch quantitativen Vergleich über eine substanzielle Teilnehmerzahl bei.
2. Literaturüberblick
2.1 KI in der Sprachbildung: Stand der Forschung
Die Anwendung von Technologie auf das Sprachlernen hat eine lange Geschichte, von Sprachlabors in den 1960er Jahren über Computer-Assisted Language Learning (CALL) in den 1990er Jahren bis zur aktuellen Generation KI-gestützter Werkzeuge. Chapelle (2001) lieferte einen frühen Rahmen für die Bewertung von Technologie im Zweitspracherwerb, der die Bedeutung des Sprachlernpotenzials, der Passung für den Lernenden und praktischer Erwägungen betonte. Golonka et al. (2014) überprüften 350 Studien zu Technologietypen im Fremdsprachlernen und fanden heraus, dass Technologie zwar Potenzial für den Wortschatzerwerb und das Leseverständnis zeigt, die Evidenz für Sprech- und Schreibfortschritte jedoch begrenzt war.
Die Entstehung großer Sprachmodelle (LLMs) – ChatGPT, Claude und ihre chinesischen Pendants Kimi, DeepSeek und Doubao – hat die Landschaft grundlegend verändert. Anders als frühere Chatbots, die auf vorgegebenen Dialogen und Schlüsselwortabgleich beruhten, können LLM-basierte Chatbots offene, kontextuell angemessene Gespräche über praktisch jedes Thema führen. Huang, Hew und Fryer (2022) führten ein systematisches Review chatbot-gestützten Sprachlernens durch und fanden positive Effekte auf Wortschatzerwerb und Sprechvertrauen, stellten aber fest, dass die meisten Studien unter kleinen Stichproben, kurzer Dauer und fehlendem Kontrollgruppendesign litten.
Jeon (2022) untersuchte die Affordanzen von KI-Chatbots bei jungen koreanischen EFL-Lernenden und fand, dass Studierende die Geduld, Verfügbarkeit und nicht-wertende Art des Chatbots schätzten – Befunde, die unsere Daten stark bestätigen. Kim (2019) berichtete, dass KI-Chatbot-Interaktion die Englisch-Grammatikfähigkeiten koreanischer Studierender verbesserte, ein Befund, den unsere Daten nur teilweise stützen (die Grammatikverbesserung war in unserer KI-Gruppe tatsächlich geringer).
2.2 Fremdsprachenangst
Die psychologische Dimension des Sprachlernens wurde seit Horwitz, Horwitz und Cope (1986), die die Foreign Language Classroom Anxiety Scale (FLCAS) entwickelten, extensiv untersucht. MacIntyre und Gardner (1994) wiesen nach, dass Sprachangst messbare Auswirkungen auf die kognitive Verarbeitung in der Zweitsprache hat: Ängstliche Lernende verarbeiten Informationen langsamer, erinnern weniger Vokabeln und produzieren weniger komplexe Äußerungen. Krashens (1982) Hypothese des „affektiven Filters" postuliert, dass negative emotionale Zustände – Angst, Selbstzweifel, Langeweile – eine mentale Barriere schaffen, die den Spracherwerb behindert.
Die Relevanz für KI-gestütztes Lernen ist direkt. Wenn KI-Chatbots den affektiven Filter senken können, indem sie eine urteilsfreie Übungsumgebung bieten, könnten sie Lernende in die Lage versetzen, Sprache effektiver zu verarbeiten und zu produzieren, als sie es im angsterzeugenden Kontext eines menschlichen Klassenzimmers würden. Unsere Daten legen nahe, dass dieser Mechanismus wirksam ist: Der am höchsten bewertete Vorteil der KI-Gruppe war „keine Angst vor Fehlern" (76,6%), und die KI-Gruppe berichtete größere Verbesserung in genau jenen Fertigkeiten – Sprechen, Hörverstehen, kommunikatives Selbstvertrauen –, die am stärksten durch Angst gehemmt werden.
2.3 Der chinesische Kontext
Chinas KI-Bildungslandschaft ist unverwechselbar. Der „Entwicklungsplan für Künstliche Intelligenz der neuen Generation" der chinesischen Regierung (2017) und der Plan „Bildungsmodernisierung 2035" identifizieren beide KI als strategische Priorität für die Bildungsreform. Chinesische Studierende haben Zugang zu einer Reihe inländisch entwickelter KI-Werkzeuge – darunter Kimi (Moonshot AI), DeepSeek, Doubao (ByteDance) und Ernie (Baidu) – zusätzlich zu internationalen Werkzeugen wie ChatGPT (zugänglich über VPN). Der kulturelle Kontext ist ebenfalls relevant: Die chinesische Unterrichtskultur betont traditionell die Lehrerautorität, die Ehrerbietung der Studierenden und gesichtswahrende Verhaltensweisen, die die mündliche Beteiligung hemmen können – genau die Bedingungen, unter denen die urteilsfreie Umgebung der KI den größten Nutzen bieten könnte.
3. Studiendesign und Methodik
3.1 Teilnehmende
Insgesamt nahmen 133 chinesische Studierende an der Studie teil. Die KI-Gruppe umfasste 85 Teilnehmende (74% weiblich, 26% männlich; Durchschnittsalter 23,8 Jahre, Spanne 19–38). Die Gruppe mit menschlichem Lehrenden umfasste 48 Teilnehmende (89% weiblich, 11% männlich; Durchschnittsalter 23,1 Jahre, Spanne 20–32). Alle Teilnehmenden waren an chinesischen Universitäten eingeschrieben und studierten überwiegend Englisch (KI: 38%, Mensch: 29%) oder Deutsch (KI: 16%, Mensch: 25%) als Fremdsprache. Das Geschlechterungleichgewicht – stärker ausgeprägt in der Gruppe mit menschlichem Lehrenden – spiegelt die allgemeine Demographie von Fremdsprachenabteilungen an chinesischen Universitäten wider.
Die Teilnehmenden wurden nicht zufällig zugewiesen. Einige wählten ihre Gruppe; andere wurden zugewiesen (44,7% der Gruppe mit menschlichem Lehrenden berichteten passive Zuweisung). Diese Selbstselektion führt einen potenziellen Störfaktor ein: Studierende, die die KI-Gruppe wählten, könnten technologisch neugieriger oder unzufriedener mit traditionellem Unterricht gewesen sein. Wir adressieren diese Einschränkung in Abschnitt 5.
3.2 Befragungsinstrument
Die Befragung wurde am 28. März 2025 auf Chinesisch über eine Online-Fragebogenplattform (问卷星) durchgeführt. Sie umfasste folgende Abschnitte:
(a) Demographie: Name (vor der Analyse anonymisiert), Geburtsdatum, Geschlecht (5 Items). (b) Sprachliche Vorkenntnisse: selbsteingeschätzte GER-Niveaus für Chinesisch, Englisch, Deutsch, Französisch, Japanisch, Koreanisch und bis zu drei weitere Sprachen (9 Items). (c) Lernsprache und Ausgangsniveau: gleiche Struktur wie (b), aber für die im Experiment gelernte Sprache (9 Items). (d) Lerngewohnheiten: tägliche Lernzeit in Minuten, Gruppenzuweisung, tägliche KI-Nutzungszeit in Minuten (3 Items). (e) Gründe für die Gruppenwahl: 5–6 Gründe, bewertet nach relativer Wichtigkeit (Prozent, insgesamt etwa 100%) (6–10 Items je nach Gruppe). (f) KI-Lernmethoden (nur KI-Gruppe): Chatten mit KI, Aufgabenbearbeitung, VR-Klassenzimmer, KI-Lehrkraft – jeweils bewertet nach Nutzungsanteil (5 Items). (g) Gründe für Interesse an der aktuellen Lernmethode: 9–10 Gründe, bewertet nach Wichtigkeit (10 Items). (h) KI-Feedbackqualität und -behandlung (nur KI-Gruppe): kategoriale Bewertung und Ja/Nein-Antwort (2 Items). (i) Selbstberichtete Gesamtverbesserung: Prozentschätzung (1 Item). (j) Bedeutung sensorischer Modalitäten: 21 Items zu visueller, auditiver, textueller, gestischer, räumlicher, taktiler, olfaktorischer, gustatorischer und sozialer (3 Unter-Items), emotionaler (2 Unter-Items), VR-Immersions- (2 Unter-Items) und KI-Immersions-Wahrnehmung (2 Unter-Items), jeweils bewertet 0–100%. (k) Fähigkeit sensorischer Modalitäten: gleiche 21 Items, bewertet für persönliche Fähigkeit (0–100%). (l) Gruppenzufriedenheit und Wechselbereitschaft (4 Items). (m) Einstellungen zu KI: 14 Aussagen, bewertet 0–100% Zustimmung. (n) Verbesserungsbereiche: 10 Sprachfertigkeitsbereiche, bewertet nach relativer Verbesserung (Prozent, insgesamt etwa 100%) (11 Items).
3.3 Datenverarbeitung
Die Antworten wurden auf einer Skala von 0–100% aufgezeichnet, wobei 0% „gar nicht" und 100% „vollständig" oder „ausschließlich" bedeutete. Bei Items, die eine prozentuale Verteilung über mehrere Optionen erforderten (z.B. Gründe für die Gruppenwahl, Verbesserungsbereiche), wurden die Befragten instruiert, dass ihre Bewertungen insgesamt etwa 100% ergeben sollten. Nicht alle Befragten erreichten eine exakte Summierung; wir berichten die Rohdaten ohne Normalisierung. Fehlende Werte wurden paarweise ausgeschlossen. Alle statistischen Analysen wurden mit Python durchgeführt (deskriptive Statistik, keine inferentiellen Tests angesichts des explorativen Charakters und des Selbstselektionsdesigns).
4. Ergebnisse
4.1 Tägliche Lernzeit und KI-Nutzung
Beide Gruppen berichteten ähnliche tägliche Lernzeiten: KI-Gruppe Mittelwert 106 Minuten (Median 60, SD 103), Gruppe mit menschlichem Lehrenden Mittelwert 96 Minuten (Median 60, SD 90). Die hohen Standardabweichungen spiegeln eine große Variation wider: Einige Studierende lernten täglich 10 Minuten, andere 360 Minuten. Innerhalb der KI-Gruppe betrug die mittlere tägliche KI-Nutzung 32 Minuten (Median 15), was darauf hindeutet, dass KI etwa 30% der gesamten Lernzeit ausmachte, wobei der Rest für Lehrbücher, Übungen oder andere Nicht-KI-Methoden aufgewendet wurde.
4.2 Selbstberichtete Gesamtverbesserung
Die Gruppe mit menschlichem Lehrenden berichtete höhere Gesamtverbesserung nach einem Monat: Mittelwert 63,2% (Median 70%, SD 27,5%, n=42) versus Mittelwert 51,9% (Median 50%, SD 18,1%, n=82) der KI-Gruppe. Dieser Befund ist bemerkenswert: Trotz ähnlicher Lernzeiten nahmen Studierende mit menschlichen Lehrenden größeren Fortschritt wahr. Allerdings deutet die höhere Standardabweichung der Gruppe mit menschlichem Lehrenden (27,5% vs. 18,1%) auf heterogenere Erfahrungen hin – einige Studierende der Gruppe mit menschlichem Lehrenden berichteten sehr hohe Verbesserung (bis zu 100%), während andere nur 5% angaben.
4.3 KI-Feedbackqualität
Unter den Teilnehmenden der KI-Gruppe waren die Wahrnehmungen der KI-Feedbackqualität generell positiv: 38% bewerteten es als „sehr treffend" (75–100 Punkte), 54% als „in Ordnung" (50–74 Punkte) und nur 4% als „durchschnittlich" (25–49 Punkte). Niemand bewertete es als schlecht. Drei Viertel (76%) berichteten, das KI-Feedback zeitnah zu bearbeiten, während 18% dies nicht taten.
4.4 KI-Lernmethoden
Die beliebtesten KI-Lernmethoden waren das Chatten mit KI-Software (mittlerer Nutzungsanteil 68,6%) und das Bitten der KI um Aufgabenbearbeitung (66,3%). Die KI-Lehrfunktionalität erhielt mäßige Nutzung (51,3%), während das VR-Klassenzimmer am wenigsten genutzt wurde (31,9%). Dieses Muster deutet darauf hin, dass konversationelle KI – die freie Chatbot-Interaktion – das aktuelle KI-gestützte Sprachlernen dominiert, wobei strukturierte pädagogische KI-Werkzeuge eine sekundäre Rolle spielen.
4.5 Motivationen
Gründe für die Wahl der KI-Gruppe (bewertet nach Wichtigkeit):
1. Neuheit / Neues ausprobieren: 75,4%
2. Jederzeit und überall lernen: 72,5%
3. Immersives Lernerlebnis: 66,9%
4. Gelangweilt von traditionellen Methoden: 60,8%
5. Günstiger als menschliche Lehrende: 59,9%
Die beiden häufigsten Motivationen – Neuheit und Flexibilität – legen nahe, dass frühe KI-Adoptierende mehr durch Neugier und Bequemlichkeit als durch Unzufriedenheit mit traditionellem Unterricht angetrieben werden.
Was KI-Lernen attraktiv macht (bewertet nach Wichtigkeit):
1. Keine Angst vor Fehlern / reduzierter Druck: 76,6%
2. Große Wissensbasis / vielfältige Themen: 74,7%
3. Jederzeit und überall lernen: 71,9%
4. Schnelle Reaktionsgeschwindigkeit: 70,4%
5. Adaptive Schwierigkeitsanpassung: 67,8%
6. Einstellbare Geschwindigkeit, Lautstärke, Stimme: 65,3%
7. Mehr Ermutigung: 64,5%
8. Viel günstiger: 59,4%
9. Genauere Aussprachekorrektur: 58,5%
Der höchstbewertete Vorteil – „keine Angst vor Fehlern" mit 76,6% – steht im Einklang mit einer umfangreichen Forschungsliteratur zur Fremdsprachenangst. Der KI-Chatbot schafft das, was Sprachpädagogen eine „angstarme Übungsumgebung" nennen, in der Lernende ohne soziale Peinlichkeit experimentieren können.
Gründe für die Wahl der Gruppe mit menschlichem Lehrenden:
1. Bevorzuge Lernen mit echten Menschen: 65,7%
2. Regt tieferes Denken an: 63,8%
3. Besser im Erkennen von Lernproblemen: 63,6%
4. Genauere Niveaueinschätzung: 61,2%
5. Vielfältigere Feedbackmethoden: 60,5%
6. Emotionale Kommunikation im Feedback: 58,2%
7. Vertrauen in traditionellen Unterricht: 52,4%
8. Möchte Methoden nicht wechseln: 52,3%
9. KI noch nicht ausgereift: 45,3%
10. Passiv zugewiesen: 44,7%
Die häufigsten Gründe der Gruppe mit menschlichem Lehrenden zentrieren sich auf Beziehungstiefe und kognitive Tiefe: Menschliche Lehrende bieten persönliche Verbindung, tieferes Denken und differenziertere Bewertung. Dies kontrastiert mit der Betonung von Bequemlichkeit und psychologischem Komfort in der KI-Gruppe.
4.6 Verbesserungsbereiche
Die Studierenden bewerteten ihre Verbesserung in zehn spezifischen Sprachfertigkeitsbereichen. Die Ergebnisse offenbaren eine auffällige Komplementarität:
Bereiche mit größerer Verbesserung in der KI-Gruppe: – Sprechen: +12,6 Prozentpunkte (KI 58,4%, Mensch 45,8%) – Hörverstehen: +10,2 PP (KI 53,6%, Mensch 43,5%) – Kommunikatives Selbstvertrauen: +8,3 PP (KI 55,2%, Mensch 46,9%) – Synonyme/variierter Ausdruck: +5,6 PP (KI 56,8%, Mensch 51,2%)
Bereiche mit größerer Verbesserung in der Gruppe mit menschlichem Lehrenden: – Lesen: +14,0 PP (Mensch 63,7%, KI 49,8%) – Grammatik: +10,1 PP (Mensch 57,0%, KI 46,9%) – Syntax: +9,3 PP (Mensch 57,1%, KI 47,8%) – Wortschatz: +5,2 PP (Mensch 60,7%, KI 55,5%) – Schreiben: +5,0 PP (Mensch 51,5%, KI 46,5%)
Das Muster ist klar: KI-gestütztes Lernen scheint interaktive, mündliche Fertigkeiten (Sprechen, Hörverstehen, kommunikatives Selbstvertrauen) zu stärken, während menschlich unterrichtetes Lernen größere Zugewinne bei strukturellen, analytischen Fertigkeiten (Lesen, Grammatik, Syntax) erzeugt. Dieser Befund hat direkte pädagogische Implikationen: KI und menschlicher Unterricht könnten am effektivsten nicht als Substitute, sondern als Komplemente wirken, die jeweils verschiedene Aspekte der Sprachkompetenz adressieren.
4.7 Sensorische und soziale Modalitätspräferenzen
Die Teilnehmenden bewerteten die Bedeutung von zwölf sensorischen und sozialen Modalitäten für ihr Sprachlernen. Mehrere große Unterschiede traten zwischen den Gruppen hervor:
Modalitäten, die von der KI-Gruppe höher bewertet wurden: – Auditive Wahrnehmung: +40,7 PP (KI 79,6%, Mensch 38,9%) – Geschriebener Text: +37,4 PP (KI 74,5%, Mensch 37,1%) – Intrinsische Motivation: +35,1 PP (KI 77,5%, Mensch 42,4%) – Extrinsische Motivation: +30,0 PP (KI 69,1%, Mensch 39,1%) – Visuelle Wahrnehmung: +29,3 PP (KI 74,6%, Mensch 45,2%) – Emotionen/Motivation: +29,0 PP (KI 72,6%, Mensch 43,6%) – Umgebungsimmersion: +20,6 PP (KI 69,9%, Mensch 49,3%) – Gruppendynamik: +17,7 PP (KI 64,6%, Mensch 46,9%)
Modalitäten, die von der Gruppe mit menschlichem Lehrenden höher bewertet wurden: – Geschmack: +32,1 PP (Mensch 76,3%, KI 44,2%) – KI-Lehr-Immersion: +31,7 PP (Mensch 83,9%, KI 52,2%) – VR-Immersion: +29,3 PP (Mensch 83,0%, KI 53,7%) – VR-Ethik: +29,3 PP (Mensch 81,3%, KI 52,0%) – KI-Chatbot-Immersion: +27,2 PP (Mensch 79,4%, KI 52,2%) – Soziale Eindrücke: +21,5 PP (Mensch 81,5%, KI 59,9%) – Geruch: +16,0 PP (Mensch 59,8%, KI 43,8%)
Diese Ergebnisse erfordern sorgfältige Interpretation. Die KI-Gruppe maß den primären Sprachlernmodalitäten – visuell, auditiv und textuell – sowie Motivationsfaktoren deutlich größere Bedeutung bei. Die Gruppe mit menschlichem Lehrenden bewertete paradoxerweise KI- und VR-Immersion als wichtiger als die KI-Gruppe es tat. Eine Interpretation ist, dass Studierende der Gruppe mit menschlichem Lehrenden, die KI-Immersion nicht direkt erlebt haben, diese möglicherweise idealisieren, während Studierende der KI-Gruppe, die KI-Werkzeuge täglich genutzt haben, in ihrer Einschätzung gemäßigter sind.
Die höhere Bewertung sozialer Eindrücke durch die Gruppe mit menschlichem Lehrenden (81,5% vs. 59,9%) steht im Einklang mit ihrer erklärten Präferenz für das Lernen mit echten Menschen und spiegelt die Bedeutung sozialer Präsenz in der Sprachbildung wider – ein Faktor, den aktuelle KI-Werkzeuge trotz rascher Fortschritte nicht vollständig replizieren können.
4.8 Einstellungen zu KI in Bildung und Gesellschaft
Vierzehn Einstellungsaussagen wurden auf einer Zustimmungsskala von 0–100% bewertet. Die Ergebnisse offenbaren ein nuanciertes Bild:
Beide Gruppen schätzen menschliche Lehrende hoch: KI-Gruppe 77,7%, Gruppe mit menschlichem Lehrenden 83,6%. Selbst nach einem Monat KI-gestützten Lernens behalten die Studierenden der KI-Gruppe starke Wertschätzung für menschlichen Unterricht.
Die KI-Gruppe ist positiver gegenüber KI-Lehre: Die Zustimmung zur aktuellen KI-Lehrkraft betrug 57,3% (vs. 38,2% in der Gruppe mit menschlichem Lehrenden), und die Zustimmung zu einer zukünftigen fortgeschrittenen KI-Lehrkraft betrug 66,4% (vs. 53,3%). Allerdings liegt selbst in der KI-Gruppe die Zustimmung zur aktuellen KI-Lehrkraft (57,3%) erheblich unter der Zustimmung zur menschlichen Lehrkraft (77,7%).
Beide Gruppen äußern Angst vor KI-Abhängigkeit: – „Angst, KI ersetzt Denkfähigkeit": KI 60,1%, Mensch 61,0% – „Angst, Wissen/Fertigkeiten nehmen ab": KI 60,6%, Mensch 66,5% – „Angst vor Verlust der Selbständigkeit / KI-Sucht": KI 59,6%, Mensch 71,6%
Die Gruppe mit menschlichem Lehrenden berichtet konsistent höhere Angst vor KI-Abhängigkeit, mit der größten Lücke bei der Sucht (71,6% vs. 59,6%). Die KI-Gruppe hat vielleicht durch direkte Erfahrung eine gemäßigtere, aber weiterhin vorsichtige Haltung entwickelt.
Beide Gruppen befürworten nachdrücklich KI-Ethik: „KI muss mit Ethik kontrolliert werden" erhielt 72,8% (KI) und 68,7% (Mensch) Zustimmung.
Beide Gruppen lehnen KI-Dominanz ab: „KI soll Menschen kontrollieren" erhielt nur 14,4% (KI) und 21,5% (Mensch) Zustimmung. „Nur KI-Roboter, keine Menschen, reichen aus" erhielt 15,2% und 19,3%. Diese Befunde legen nahe, dass chinesische Studierende 2025 eine fest humanistische Orientierung beibehalten: Sie begrüßen KI als Werkzeug, lehnen sie aber als Meister ab.
Romantische Bindung an KI oder Lehrende ist minimal: „Habe mich in eine KI verliebt" ergab in beiden Gruppen etwa 20%, und „Habe mich in eine menschliche Lehrkraft verliebt" ergab 20–33%. Diese niedrigen Werte legen nahe, dass immersive KI-Interaktion für diese Kohorte nicht die emotionale Abhängigkeit erzeugt hat, die einige Kommentatoren vorhergesagt haben. Der chinesische kulturelle Kontext könnte hier relevant sein: Die pragmatische Orientierung gegenüber KI als Werkzeug statt als Begleiter, kombiniert mit klaren sozialen Normen rund um menschliche Beziehungen, könnte einen kulturellen Puffer gegen die parasoziale Bindung darstellen, die in einigen westlichen Studien zur Mensch-KI-Interaktion berichtet wurde.
Die Bereitschaft, KI als arbeitssparendes Mittel zu nutzen, war moderat (etwa 39% in beiden Gruppen), was darauf hindeutet, dass die meisten Studierenden KI nicht primär als Abkürzung betrachten. Zusammen mit der starken Befürwortung ethischer KI-Kontrolle deutet dieses Muster auf eine Kohorte hin, die KI als nützlich, aber begrenzt ansieht – eine differenzierte Position, die Stereotypen chinesischer Studierender als unkritische Technologieadoptierende widerspricht.
4.9 Detaillierte Einstellungsanalyse
Um die nuancierten Einstellungen klarer zu verstehen, können wir die vierzehn Einstellungsitems in thematische Cluster gruppieren:
Cluster A – Lehrpräferenz: – „Ich mag menschliche Lehrkraft, die mich unterrichtet": KI 77,7%, Mensch 83,6% – „Ich mag aktuelle KI-Lehrkraft, die mich unterrichtet": KI 57,3%, Mensch 38,2% – „Ich würde zukünftige fortgeschrittene KI-Lehrkraft mögen": KI 66,4%, Mensch 53,3%
Beide Gruppen bevorzugen menschliche Lehrende, aber die KI-Gruppe zeigt deutlich größere Offenheit gegenüber sowohl aktueller als auch zukünftiger KI-Lehre. Die 20-Punkte-Lücke zwischen der Zustimmung zur menschlichen Lehrkraft (77,7%) und zur aktuellen KI-Lehrkraft (57,3%) in der KI-Gruppe – nach direkter Erfahrung mit KI-Werkzeugen – legt nahe, dass Vertrautheit qualifizierte Wertschätzung statt Begeisterung hervorbringt.
Cluster B – Angst vor KI: – „Angst: KI ersetzt Denkfähigkeit": KI 60,1%, Mensch 61,0% – „Angst: Wissen/Fertigkeiten nehmen ab": KI 60,6%, Mensch 66,5% – „Angst: Verlust der Selbständigkeit, KI-Sucht": KI 59,6%, Mensch 71,6% – „Keine Angst: Fokus auf andere Bereiche": KI 55,7%, Mensch 53,4%
Beide Gruppen hegen erhebliche Besorgnis über kognitiven Abbau – ein Anliegen, das Fang Lus qualitative Daten anschaulich machen. Die höhere Suchtangst der Gruppe mit menschlichem Lehrenden (71,6% vs. 59,6%) könnte ein weniger differenziertes Verständnis dessen widerspiegeln, was KI-Interaktion tatsächlich beinhaltet: Das Unbekannte ist oft beängstigender als das Bekannte.
Cluster C – KI-Governance: – „KI muss mit Ethik kontrolliert werden": KI 72,8%, Mensch 68,7% – „KI Freiheit geben, nächste Generation zu entwickeln": KI 47,5%, Mensch 50,0% – „KI Menschen kontrollieren lassen": KI 14,4%, Mensch 21,5% – „Nur KI-Roboter, keine Menschen, reichen aus": KI 15,2%, Mensch 19,3%
Die Governance-Einstellungen offenbaren eine klare Hierarchie: starke Befürwortung ethischer Kontrolle, Ambivalenz gegenüber KI-Autonomie und feste Ablehnung der KI-Suprematie. Die Konsistenz über beide Gruppen hinweg legt nahe, dass diese Einstellungen eher einen breiteren generationalen Konsens als gruppenspezifische Effekte widerspiegeln.
4.10 Gruppenzufriedenheit und Wechselbereitschaft
Beide Gruppen berichteten hohe Zufriedenheit mit ihrer Zuweisung: KI-Gruppe 80,9% (Median 80%), Gruppe mit menschlichem Lehrenden 76,7% (Median 85%). Allerdings erzählt die Bereitschaft zum Gruppenwechsel eine andere Geschichte: 47% der KI-Gruppe und bemerkenswerte 68% der Gruppe mit menschlichem Lehrenden äußerten Wechselbereitschaft. Die hohe Wechselrate der Gruppe mit menschlichem Lehrenden legt nahe, dass viele Studierende dieser Gruppe neugierig auf KI-gestütztes Lernen sind, selbst wenn sie mit ihrer aktuellen Erfahrung zufrieden sind – konsistent mit dem breiteren kulturellen Moment, in dem KI als neuartig und attraktiv wahrgenommen wird.
Unter den Befragten der KI-Gruppe, die ihre Wechselpräferenz beschrieben, war die häufigste Antwort „KI-Gruppe: bequem" (便利), was darauf hindeutet, dass diejenigen, die bleiben würden, praktische Zugänglichkeit über alles schätzten. Unter den Befragten der Gruppe mit menschlichem Lehrenden artikulierten mehrere durchdachte Positionen: „KI ist noch nicht ausgereift" (AI不完善), „menschliche Lehrmethoden passen besser zu mir" (human组的教学方法比较适合我) und bemerkenswert: „Ich bevorzuge es, selbst zu erkunden. Menschen werden niemals von KI ersetzt werden" (我更喜欢自己探索。人类永远不会被AI取代) – eine Aussage, die die humanistische Position zusammenfasst, die von der Mehrheit der Befragten geteilt wird.
5. Diskussion
Die Ergebnisse zeichnen ein nuanciertes Bild, das sich einfachen Schlussfolgerungen widersetzt. Wir organisieren unsere Diskussion um fünf Themen: die Komplementarität von KI und menschlichem Unterricht, den Dialog mit den Begleitessays in diesem Band, den Mechanismus der Angstreduktion, Modalitätsunterschiede und Implikationen für die europäisch-chinesische vergleichende Bildungsforschung.
5.1 Die Komplementaritätsthese
Unser zentraler Befund – dass KI-gestütztes Lernen interaktive mündliche Fertigkeiten stärkt, während menschlicher Unterricht strukturelle analytische Fertigkeiten stärkt – stützt das, was wir die Komplementaritätsthese nennen: KI und menschlicher Unterricht sind keine Substitute, sondern Komplemente, die jeweils für unterschiedliche Dimensionen der Sprachkompetenz besser geeignet sind. Dieser Befund stellt sowohl die techno-optimistische Position (dass KI menschliche Lehrende ersetzen wird) als auch die techno-pessimistische Position (dass KI nicht effektiv lehren kann) in Frage.
Der Mechanismus ist plausibel und in etablierter SLA-Theorie verankert. KI-Chatbots bieten unbegrenzte, geduldige, urteilsfreie Gesprächsübung – genau die Bedingungen, die Sprechflüssigkeit und Hörverstehen fördern. Dies steht im Einklang mit Longs (1996) Interaktionshypothese, die postuliert, dass konversationelle Interaktion – einschließlich Bedeutungsaushandlung, Umformulierungen und Verständnisüberprüfungen – den Spracherwerb antreibt. KI-Chatbots bieten reichhaltige Interaktion, wenn auch ohne die menschlichen Interaktionszüge, die Long betonte. Menschliche Lehrende bieten strukturierten Unterricht, Fehleranalyse und metalinguistische Erklärung – genau die Bedingungen, die grammatische Genauigkeit, Leseverständnis und syntaktisches Bewusstsein fördern. Dies steht im Einklang mit Swains (2000) Output-Hypothese, die argumentiert, dass Lernende nicht nur verständlichen Input, sondern Gelegenheiten brauchen, Sprache zu produzieren und korrigierendes Feedback zu erhalten, das sie über ihre aktuelle Kompetenz hinaus fordert.
Die Komplementaritätsthese hat praktische Implikationen: Anstatt zu debattieren, ob KI menschliche Lehrende ersetzen sollte (eine Frage, die unsere Daten klar beantworten: nein), sollten Lehrende fragen, wie KI und menschlicher Unterricht orchestriert werden können, um unterschiedliche Lernziele innerhalb eines einheitlichen Curriculums zu bedienen.
5.2 Dialog mit Fang Lu
Die qualitative Studie von Fang Lu (dieser Band) identifiziert ein kritisches Risiko KI-gestützten Sprachlernens: die potenzielle Erosion von kritischem Denken, Kreativität und unabhängigem Urteilsvermögen. Ihre Fallstudien – ein Studierender im Anfängerstadium, dessen KI-gestütztes Schreiben strukturell perfekt, aber intellektuell oberflächlich war, und ein fortgeschrittener Studierender, dessen KI-gestützte Übersetzung flüssig war, aber an kultureller Nuance mangelte – illustrieren das Phänomen des „Setzlinge hochziehen, um ihnen beim Wachsen zu helfen" (拔苗助长): KI beschleunigt die oberflächliche Leistung, während sie tiefere kognitive Entwicklung untergräbt.
Unsere quantitativen Daten stützen und verkomplizieren Fang Lus Befunde zugleich. Die größere Verbesserung der Gruppe mit menschlichem Lehrenden in Grammatik und Syntax – Fertigkeiten, die analytisches Denken statt Musterreproduktion erfordern – steht im Einklang mit ihrer Sorge, dass KI kognitive Fähigkeiten umgehen statt entwickeln könnte. Allerdings legt die größere Verbesserung der KI-Gruppe im kommunikativen Selbstvertrauen nahe, dass KI eine echte und wichtige Funktion erfüllt, die menschlicher Unterricht oft nicht bietet: die Schaffung eines psychologisch sicheren Raums für mündliche Übung.
Die Implikation ist nicht, dass KI vermieden werden sollte, sondern dass ihre Rolle sorgfältig definiert werden sollte. KI erscheint am vorteilhaftesten für Flüssigkeitsentwicklung und Angstreduktion; menschlicher Unterricht erscheint am vorteilhaftesten für Genauigkeitsentwicklung und analytisches Denken. Ein gut gestaltetes Curriculum würde beides einsetzen.
5.3 Dialog mit Ole Döring
Dörings philosophischer Aufsatz (dieser Band) stellt das Konzept der „Künstlichen Intelligenz" in Bezug auf den Unterricht selbst in Frage und argumentiert, dass die Unterscheidung der deutschen philosophischen Tradition zwischen Vernunft (Urteilsvermögen, Beurteilung) und Verstand (Verstehen, Berechnung) einen fundamentalen Kategorienfehler in Behauptungen offenbart, Maschinen könnten „lehren". Was Maschinen tun, argumentiert Döring, ist verarbeiten – nicht verstehen, nicht urteilen, nicht fürsorgen.
Unsere Einstellungsdaten resonieren mit Dörings Analyse. Wenn Studierende sagen, sie „mögen" menschliche Lehrende zu 78–84%, aber KI-Lehrende nur zu 38–57%, reagieren sie möglicherweise auf genau die Unterscheidung, die Döring identifiziert: Die menschliche Lehrkraft bietet Vernunft – Urteilsvermögen, Fürsorge, Verständnis des individuellen Lernenden –, während die KI Verstand bietet – Berechnung, Mustererkennung, Informationsabruf. Beides ist nützlich, aber nicht gleichwertig.
Die starke Befürwortung ethischer KI-Kontrolle (70%+) und die starke Ablehnung der KI-Dominanz (<20%) durch die Studierenden stützen Dörings humanistische Position zusätzlich. Diese 133 chinesischen Studierenden bewahren, während sie KI-Werkzeuge begeistert nutzen, eine klare konzeptuelle Grenze zwischen menschlicher und maschineller Handlungsfähigkeit.
5.4 Die druckfreie Umgebung
Der höchstbewertete Vorteil des KI-Lernens – „keine Angst vor Fehlern" mit 76,6% – verdient besondere Aufmerksamkeit. Fremdsprachenangst ist eine der am umfassendsten dokumentierten Barrieren für den Spracherwerb. Traditionelle Unterrichtssettings mit ihren inhärenten sozialen Dynamiken von Leistung, Urteil und Gesichtswahrung erzeugen Angst, die das Üben, insbesondere mündliches Üben, hemmt. Der KI-Chatbot umgeht dies vollständig: Es gibt kein Publikum, kein Urteil, keinen Gesichtsverlust.
Dieser Befund legt nahe, dass der primäre pädagogische Beitrag der KI möglicherweise nicht als Lehrerin, sondern als Übungspartnerin liegt – eine unermüdliche, geduldige Gesprächspartnerin, die niemals urteilt, niemals die Geduld verliert und niemals soziale Angst erzeugt. Wenn dies zutrifft, ist das optimale Bildungsmodell nicht „KI statt menschlicher Lehrender", sondern „KI als Ergänzung zu menschlichen Lehrenden", speziell für die Übungskomponente des Sprachlernens, bei der Angst die Leistung am stärksten hemmt.
5.5 Modalitätsunterschiede und ihre Implikationen
Die großen Unterschiede in den sensorischen Modalitätspräferenzen zwischen den Gruppen – KI-Studierende bewerten visuellen, auditiven und textuellen Input höher, Studierende mit menschlichem Lehrenden bewerten soziale Eindrücke, VR-Immersion und physische Sinne höher – legen nahe, dass die beiden Gruppen möglicherweise fundamental verschiedene Lernorientierungen haben. Studierende der KI-Gruppe scheinen kognitiv orientierte Lernende zu sein, die Informationseingangskanäle priorisieren. Studierende der Gruppe mit menschlichem Lehrenden scheinen sozial und physisch orientierte Lernende zu sein, die relationale und verkörperte Erfahrung priorisieren.
Ob diese Unterschiede Ursachen oder Folgen der Gruppenwahl sind, ist unklar. Studierende, die kognitive Eingangskanäle bevorzugen, könnten die KI-Gruppe gewählt haben, weil KI-Werkzeuge genau diese Kanäle bedienen. Alternativ könnte ein Monat KI-gestützten Lernens die Studierenden daran gewöhnt haben, kognitiven Input höher als soziale Erfahrung zu bewerten. Längsschnittforschung wäre nötig, um diese Möglichkeiten zu entflechten.
5.6 Implikationen für die europäisch-chinesische vergleichende Bildungsforschung
Unsere Befunde haben spezifische Relevanz für den europäisch-chinesischen Bildungsdialog, den dieser Band adressiert. Europäische Sprachbildung, geprägt durch den Gemeinsamen Europäischen Referenzrahmen für Sprachen (GER) und den kommunikativen Ansatz, hat traditionell mündliche Kompetenz, Interaktion und aufgabenbasiertes Lernen betont. Chinesische Sprachbildung, geprägt durch prüfungsgetriebene Kultur und Grammatik-Übersetzungs-Pädagogik, hat traditionell Lesen, Schreiben, Grammatik und Wortschatz betont. Das Aufkommen von KI als Übungspartner könnte helfen, diese Lücke zu überbrücken: Chinesische Studierende, denen Gelegenheiten für authentische mündliche Übung mit menschlichen Sprechern fehlen, können KI nutzen, um die kommunikativen Fertigkeiten zu entwickeln, die europäische pädagogische Ansätze priorisieren.
Zugleich bietet die europäische Betonung von kritischem Denken, Lernautonomie und reflektiver Praxis – Werte, die im EU Digital Education Action Plan (2021-2027) artikuliert werden – ein notwendiges Gegengewicht zum Risiko, dass KI-Übung Flüssigkeit ohne Tiefe entwickeln könnte. Fang Lus Fallstudien illustrieren dieses Risiko konkret: Der Studierende, dessen KI-gestütztes Schreiben flüssig, aber intellektuell leer war, hatte Oberflächenkompetenz entwickelt, ohne das tiefere kognitive Engagement, das menschliche Interaktion fördert.
Ein europäisch-chinesisches Modell KI-integrierter Sprachbildung könnte daher die begeisterte Adoption von KI-Werkzeugen durch chinesische Studierende mit europäischen pädagogischen Rahmenwerken kombinieren, die auf kritischem Denken und reflektiver Praxis bestehen. Die Technologie liefert das Medium; die Pädagogik liefert den Zweck.
5.7 Empfehlungen für die Praxis
Auf der Grundlage unserer Befunde bieten wir vier Empfehlungen für Lehrende, die die Integration von KI in den Fremdsprachunterricht erwägen:
Erstens: KI für mündliches Üben einsetzen, nicht als Ersatz für Unterricht. Die Daten legen nahe, dass der größte Beitrag der KI in der Entwicklung der Sprechflüssigkeit und des kommunikativen Selbstvertrauens durch angstarme Gesprächsübung liegt. Diese Funktion ergänzt menschlichen Unterricht, statt ihn zu ersetzen.
Zweitens: Menschlichen Unterricht für analytische Fertigkeiten beibehalten. Grammatik, Syntax, Leseverständnis und Schreiben – die Fertigkeiten, die in der Gruppe mit menschlichem Lehrenden größere Verbesserung zeigten – scheinen vom strukturierten, erklärenden und korrigierenden Unterricht zu profitieren, den menschliche Lehrende bieten.
Drittens: Die KI-Angst der Studierenden proaktiv adressieren. Über 60% der Studierenden in beiden Gruppen äußerten die Angst, dass KI ihre Denkfähigkeit ersetzen oder ihre Fertigkeiten erodieren könnte. Diese Bedenken sind legitim und sollten durch explizite Diskussion der KI-Grenzen, ethische Rahmenwerke für KI-Nutzung und Aufgaben adressiert werden, die unabhängiges kritisches Denken erfordern.
Viertens: Bewertungen gestalten, die KI nicht abkürzen kann. Wie Fang Lus Fallstudien illustrieren, kann KI polierte Ergebnisse produzieren, die oberflächliches Verständnis maskieren. Bewertungen sollten mündliche Prüfungen, spontane Antworten und Aufgaben umfassen, die echtes analytisches Denken erfordern – Bereiche, in denen KI-Unterstützung entweder nicht verfügbar oder sichtbar künstlich ist.
6. Einschränkungen
Mehrere Einschränkungen begrenzen die Interpretation dieser Ergebnisse:
Erstens beruht die Studie vollständig auf selbstberichteten Daten. Die Wahrnehmungen der Studierenden bezüglich ihrer Verbesserung müssen nicht mit ihrer tatsächlichen Verbesserung übereinstimmen, wie sie durch standardisierte Tests gemessen würde. Ein Prä-Post-Test-Design würde robustere Evidenz liefern.
Zweitens führt die nicht-zufällige Gruppenzuweisung einen Selbstselektionsbias ein. Studierende, die die KI-Gruppe wählten, könnten sich systematisch von denen unterscheiden, die die Gruppe mit menschlichem Lehrenden wählten oder ihr zugewiesen wurden – in technologischer Kompetenz, Lernmotivation, Persönlichkeit oder anderen nicht gemessenen Variablen. Der höhere Männeranteil der KI-Gruppe (26% vs. 11%) und die breitere Altersspanne deuten auf einige demografische Unterschiede hin, obwohl die praktische Bedeutung dieser Unterschiede für Sprachlernergebnisse unklar ist.
Drittens ist der einmonatige Beobachtungszeitraum kurz. Sprachlernen ist ein langfristiger Prozess, und die relativen Vorteile von KI gegenüber menschlichem Unterricht könnten sich über längere Zeiträume verschieben. Der Vorteil der KI-Gruppe beim Sprechen könnte ein Flüssigkeitsgewinn in der Frühphase sein, der stagniert, während der Vorteil der Gruppe mit menschlichem Lehrenden bei der Grammatik sich über die Zeit verstärken könnte.
Viertens besteht die Stichprobe ausschließlich aus chinesischen Studierenden, überwiegend weiblich, die Englisch oder Deutsch studieren. Die Generalisierbarkeit auf andere kulturelle Kontexte, Altersgruppen, Geschlechter oder Zielsprachen ist ungewiss. Die kulturelle Spezifität unserer Befunde sollte betont werden: Die Betonung von Gesichtswahrung und Lehrerautorität in der chinesischen Unterrichtskultur könnte die angstreduzierenden Vorteile der KI in einer Weise verstärken, die in Kulturen mit informelleren Lehrer-Schüler-Beziehungen weniger ausgeprägt wäre.
Fünftens sind alle Messungen selbstberichtet. Die Daten zu den „Verbesserungsbereichen" (Abschnitt 4.6) repräsentieren die Wahrnehmungen der Studierenden, wo sie sich verbessert haben, nicht objektiv gemessene Zugewinne. Studierende könnten Verbesserung in Bereichen überschätzen, die sie am meisten geübt haben (Übung mit Fortschritt verwechselnd), oder Verbesserung in Bereichen unterschätzen, in denen Zugewinne weniger bewusst wahrgenommen werden.
Sechstens wurde die Befragung zu einem einzigen Zeitpunkt durchgeführt. Längsschnittdaten – die Motivation, Einstellungen und Ergebnisse über ein ganzes Semester oder Jahr verfolgen – würden ein reichhaltigeres Bild liefern. Eine Folgestudie mit denselben Teilnehmenden nach sechs Monaten oder einem Jahr fortgesetzten Studiums wäre besonders wertvoll, um zu testen, ob die Komplementaritätsthese über längere Lernzeiträume Bestand hat.
Trotz dieser Einschränkungen bietet die Studie eine der größeren vergleichenden Untersuchungen KI-gestützten gegenüber menschlich unterrichteten Sprachlernens, die bisher verfügbar sind, und die Breite des Befragungsinstruments – Motivation, Modalitätspräferenzen, Einstellungen und fertigkeitsspezifische Verbesserung abdeckend – liefert ein multidimensionales Bild, das den meisten existierenden Studien fehlt.
7. Schlussfolgerung
Diese Studie an 133 chinesischen Studierenden, die Fremdsprachen mit KI-Unterstützung (n=85) und mit menschlichen Lehrenden (n=48) lernen, liefert vier Hauptbefunde:
Erstens berichteten menschlich unterrichtete Studierende höhere Gesamtverbesserung (63,2% vs. 51,9%), aber das Muster ist fertigkeitsspezifisch: KI-gestützte Studierende verbesserten sich mehr im Sprechen (+12,6 PP), Hörverstehen (+10,2 PP) und kommunikativen Selbstvertrauen (+8,3 PP), während menschlich unterrichtete Studierende sich mehr im Lesen (+14,0 PP), Grammatik (+10,1 PP) und Syntax (+9,3 PP) verbesserten. Dies stützt eine Komplementaritätsthese: KI und menschlicher Unterricht erfüllen verschiedene, komplementäre Funktionen in der Sprachbildung.
Zweitens ist der primäre wahrgenommene Vorteil des KI-Lernens nicht informationell, sondern psychologisch: „Keine Angst vor Fehlern" wurde mit 76,6% am höchsten bewertet. Der größte Beitrag der KI zur Sprachbildung könnte die Schaffung einer druckfreien Umgebung für mündliche Übung sein – eine Adressierung einer der hartnäckigsten Barrieren für den Spracherwerb.
Drittens bewahren beide Gruppen stark humanistische Einstellungen. Selbst nach einem Monat KI-gestützten Lernens bewerten KI-Gruppen-Studierende menschliche Lehrende höher als KI-Lehrende (77,7% vs. 57,3%). Beide Gruppen befürworten ethische KI-Kontrolle (>68%) und lehnen KI-Dominanz über Menschen ab (<22%).
Viertens legt die paradoxerweise höhere Bewertung von KI- und VR-Immersion durch die Gruppe mit menschlichem Lehrenden Neugier auf Technologien nahe, die sie nicht erlebt haben, während die gemäßigtere Einschätzung der KI-Gruppe den moderierenden Effekt tatsächlicher Nutzung widerspiegelt.
Diese Befunde haben klare Implikationen für die Bildungsgestaltung. Die Evidenz unterstützt weder den Ersatz menschlicher Lehrender durch KI noch den Ausschluss von KI aus der Sprachbildung. Stattdessen deutet sie auf ein integriertes Modell hin, in dem KI als komplementärer Übungspartner dient – die unbegrenzte, urteilsfreie Gesprächsübung bereitstellend, die mündliche Flüssigkeit und kommunikatives Selbstvertrauen entwickelt – während menschliche Lehrende den strukturierten Unterricht, die analytische Anleitung und die soziale Präsenz bieten, die grammatische Kompetenz, Leseverständnis und kritisches Denken entwickeln. Ein solches Modell würde sowohl die in unseren Daten dokumentierten technologischen Möglichkeiten als auch die von Döring artikulierten philosophischen Bedenken und die von Fang Lu artikulierten pädagogischen Warnungen berücksichtigen.
Während die KI-Fähigkeiten weiter voranschreiten, wird die Frage nicht sein, ob KI in der Sprachbildung eingesetzt werden soll, sondern wie sie klug eingesetzt werden kann – eine Frage, die fortgesetzte empirische Forschung, philosophische Reflexion und pädagogische Innovation erfordert.
Danksagung
Kofinanziert von der Europäischen Union. Die geäußerten Ansichten und Meinungen sind jedoch ausschließlich die des Autors und spiegeln nicht notwendigerweise die der Europäischen Union wider [101126782].
Wir danken den studentischen Teilnehmenden für ihre offenen Antworten und den Kolleginnen und Kollegen, die die Befragung durchgeführt haben.
Literaturverzeichnis
Chapelle, C. A. (2001). Computer Applications in Second Language Acquisition. Cambridge University Press.
Döring, O. (this volume). AI and pedagogy: Between artificial intelligence and human understanding.
Garrett, N. (2009). Computer-assisted language learning trends and issues revisited: Integrating innovation. The Modern Language Journal, 93(s1), 719–740.
Godwin-Jones, R. (2015). Contributing, creating, curating: Digital literacies for language learners. Language Learning & Technology, 19(3), 8–20.
Golonka, E. M., Bowles, A. R., Frank, V. M., Richardson, D. L., & Freynik, S. (2014). Technologies for foreign language learning: A review of technology types and their effectiveness. Computer Assisted Language Learning, 27(1), 70–105.
Horwitz, E. K., Horwitz, M. B., & Cope, J. (1986). Foreign language classroom anxiety. The Modern Language Journal, 70(2), 125–132.
Huang, W., Hew, K. F., & Fryer, L. K. (2022). Chatbots for language learning — Are they really useful? A systematic review of chatbot-supported language learning. Journal of Computer Assisted Learning, 38(1), 237–257.
Jeon, J. (2022). Exploring AI chatbot affordances in the EFL classroom: Young learners' experiences and perspectives. Computer Assisted Language Learning, 37(1–2), 1–26.
Kim, N. Y. (2019). A study on the use of artificial intelligence chatbots for improving English grammar skills. Journal of Digital Convergence, 17(8), 37–46.
Krashen, S. D. (1982). Principles and Practice in Second Language Acquisition. Pergamon Press.
Lai, C., & Zheng, D. (2018). Self-directed use of mobile devices for language learning beyond the classroom. ReCALL, 30(3), 299–318.
Long, M. H. (1996). The role of the linguistic environment in second language acquisition. In W. C. Ritchie & T. K. Bhatia (Eds.), Handbook of Second Language Acquisition (pp. 413–468). Academic Press.
Lu, F. (this volume). AI in Chinese teaching: Opportunities and challenges from the perspective of critical thinking.
MacIntyre, P. D., & Gardner, R. C. (1994). The subtle effects of language anxiety on cognitive processing in the second language. Language Learning, 44(2), 283–305.
Swain, M. (2000). The output hypothesis and beyond: Mediating acquisition through collaborative dialogue. In J. P. Lantolf (Ed.), Sociocultural Theory and Second Language Learning (pp. 97–114). Oxford University Press.
World Economic Forum. (2025). The Future of Jobs Report 2025. Geneva: WEF.