Difference between revisions of "Rethinking Higher Education/Chapter 5/zh"
| (2 intermediate revisions by the same user not shown) | |||
| Line 1: | Line 1: | ||
| + | <div style="background-color: #003399; color: white; padding: 12px 15px; margin: 0 0 20px 0; border-radius: 4px; font-size: 1.1em;"> | ||
| + | <span style="font-weight: bold;">语言:</span> [[Rethinking_Higher_Education/Chapter_5|<span style="color: #FFD700;">EN</span>]] · <span style="color: #FFD700; font-weight: bold;">ZH</span> · [[Rethinking_Higher_Education/Chapter_5/en-zh|<span style="color: #FFD700;">EN-ZH</span>]] · [[Rethinking_Higher_Education/zh|<span style="color: #FFD700;">← 目录</span>]] | ||
| + | </div> | ||
| + | |||
= 第五章 = | = 第五章 = | ||
| Line 5: | Line 9: | ||
'''Martin Woesler''' | '''Martin Woesler''' | ||
| − | 湖南师范大学 | + | ''湖南师范大学'' |
| − | + | '''摘要''' | |
| − | + | 本研究比较了133名中国大学生——85名在人工智能辅助组,48名在传统人类教师组——在约一个月时间里自我报告的外语学习成果、动机和态度。基于涵盖人口统计学、学习方法、感官模式偏好、对教育中人工智能的态度以及十个语言技能领域自我评估改善的126个变量的综合调查工具,本研究发现了一幅复杂的图景,挑战了技术乐观主义和技术悲观主义的叙事。人类教师组报告了更高的总体改善(63.2%对51.9%),但人工智能组在口语和听力方面报告了更大的进步——恰恰是人工智能聊天机器人被设计用来练习的互动技能。两组都表现出对人类教师的强烈偏好,但人工智能组同时重视人工智能的可用性、速度和无压力环境。两组对人工智能自主性的态度都很谨慎:超过70%的人同意人工智能需要伦理控制,不到20%的人赞成人工智能对人类的主导地位。这些发现为关于教育中人工智能的日益增长的文献做出了贡献,并结合Fang Lu(本卷)的定性研究和Ole Döring(本卷)的哲学框架进行了讨论。 | |
| − | + | ''关键词:人工智能辅助语言学习、比较研究、外语教育、人机交互、数字教育、感官模式、学生态度、中国、欧盟、互补性论题'' | |
| − | + | '''1. 引言''' | |
| − | + | 将人工智能整合到语言教育中已以惊人的速度从推测性的未来主义转变为日常实践。2025年的中国大学生日常使用人工智能聊天机器人——ChatGPT、Kimi、DeepSeek、豆包——作为对话伙伴、发音教练、语法检查器和词汇辅导工具。然而,关于人工智能辅助语言学习是否比传统人类教学产生更好成果的实证证据仍然出人意料地薄弱。大多数现有研究规模小、只关注单一人工智能工具或只衡量非常短期的成果。缺乏的是一项不仅考察学习成果,还考察人工智能辅助与人类教学语言学习的动机、态度和感知维度的比较研究。 | |
本研究弥补了这一空白。我们调查了133名中国大学生——85名选择或被分配使用人工智能辅助学习外语,48名与人类教师学习——在约一个月的学习之后。调查工具包含126个变量,涵盖人口统计学、先前语言知识、每日学习时间、选组原因、人工智能使用方法、反馈质量感知、十个具体技能领域的自我评估改善、十二种感官和社会模式在学习中的重要性,以及对教育和社会中人工智能十四个方面的态度。 | 本研究弥补了这一空白。我们调查了133名中国大学生——85名选择或被分配使用人工智能辅助学习外语,48名与人类教师学习——在约一个月的学习之后。调查工具包含126个变量,涵盖人口统计学、先前语言知识、每日学习时间、选组原因、人工智能使用方法、反馈质量感知、十个具体技能领域的自我评估改善、十二种感官和社会模式在学习中的重要性,以及对教育和社会中人工智能十四个方面的态度。 | ||
| − | + | 我们的发现置于越来越多的中欧数字教育研究文献中,包括Fang Lu(本卷)的定性案例研究——她考察了人工智能对波士顿学院中文课程批判性思维的影响——以及Ole Döring(本卷)的哲学分析——他探究了教育学语境中"人工智能"的概念基础。Fang Lu通过个案提供了深度,Döring提供了哲学广度,而我们通过对相当数量参与者群体的定量比较做出了广度上的贡献。 | |
| − | + | '''2. 文献综述''' | |
| − | + | '''2.1 语言教育中的人工智能:技术现状''' | |
将技术应用于语言学习有着悠久的历史,从1960年代的语言实验室到1990年代的计算机辅助语言学习(CALL),再到当前一代的人工智能工具。Chapelle(2001)为评估第二语言习得中的技术提供了早期框架,强调语言学习潜力、学习者适合度和实际考虑的重要性。Golonka等人(2014)回顾了350项关于外语学习中技术类型的研究,发现虽然技术在词汇习得和阅读理解方面显示出前景,但口语和写作方面的证据有限。 | 将技术应用于语言学习有着悠久的历史,从1960年代的语言实验室到1990年代的计算机辅助语言学习(CALL),再到当前一代的人工智能工具。Chapelle(2001)为评估第二语言习得中的技术提供了早期框架,强调语言学习潜力、学习者适合度和实际考虑的重要性。Golonka等人(2014)回顾了350项关于外语学习中技术类型的研究,发现虽然技术在词汇习得和阅读理解方面显示出前景,但口语和写作方面的证据有限。 | ||
| Line 31: | Line 35: | ||
Jeon(2022)探索了韩国年轻EFL学习者使用人工智能聊天机器人的可供性,发现学生欣赏聊天机器人的耐心、可用性和非评判性——我们的数据有力地证实了这些发现。Kim(2019)报告说,人工智能聊天机器人互动提高了韩国大学生的英语语法技能——我们的数据仅部分支持这一发现(我们的人工智能组语法改善实际上更低)。 | Jeon(2022)探索了韩国年轻EFL学习者使用人工智能聊天机器人的可供性,发现学生欣赏聊天机器人的耐心、可用性和非评判性——我们的数据有力地证实了这些发现。Kim(2019)报告说,人工智能聊天机器人互动提高了韩国大学生的英语语法技能——我们的数据仅部分支持这一发现(我们的人工智能组语法改善实际上更低)。 | ||
| − | + | '''2.2 外语焦虑''' | |
语言学习的心理维度自Horwitz、Horwitz和Cope(1986)开发外语课堂焦虑量表(FLCAS)以来得到了广泛研究。MacIntyre和Gardner(1994)证明了语言焦虑对第二语言认知加工的可测量影响:焦虑的学习者信息处理更慢,词汇回忆更少,产出的语句复杂性更低。Krashen(1982)的"情感过滤器"假说认为,消极的情绪状态——焦虑、自我怀疑、无聊——创造了阻碍语言习得的心理障碍。 | 语言学习的心理维度自Horwitz、Horwitz和Cope(1986)开发外语课堂焦虑量表(FLCAS)以来得到了广泛研究。MacIntyre和Gardner(1994)证明了语言焦虑对第二语言认知加工的可测量影响:焦虑的学习者信息处理更慢,词汇回忆更少,产出的语句复杂性更低。Krashen(1982)的"情感过滤器"假说认为,消极的情绪状态——焦虑、自我怀疑、无聊——创造了阻碍语言习得的心理障碍。 | ||
| Line 37: | Line 41: | ||
这与人工智能辅助学习直接相关。如果人工智能聊天机器人能够通过提供无评判的练习环境来降低情感过滤器,它们可能使学习者比在产生焦虑的人类课堂中更有效地处理和产出语言。我们的数据表明这种机制正在起作用:人工智能组最高评价的优势是"不怕犯错"(76.6%),而且人工智能组恰恰在那些受焦虑抑制最强的技能——口语、听力、交际自信——上报告了更大的改善。 | 这与人工智能辅助学习直接相关。如果人工智能聊天机器人能够通过提供无评判的练习环境来降低情感过滤器,它们可能使学习者比在产生焦虑的人类课堂中更有效地处理和产出语言。我们的数据表明这种机制正在起作用:人工智能组最高评价的优势是"不怕犯错"(76.6%),而且人工智能组恰恰在那些受焦虑抑制最强的技能——口语、听力、交际自信——上报告了更大的改善。 | ||
| − | + | '''2.3 中国背景''' | |
| − | 中国的教育人工智能格局是独特的。中国政府的"新一代人工智能发展规划"(2017年)和"教育现代化2035" | + | 中国的教育人工智能格局是独特的。中国政府的"新一代人工智能发展规划"(2017年)和"教育现代化2035"计划都将人工智能确定为教育改革的战略优先事项。中国学生可以使用一系列国产人工智能工具——包括Kimi(月之暗面)、DeepSeek、豆包(字节跳动)和文心一言(百度)——以及ChatGPT等国际工具(通过VPN访问)。文化背景也很相关:中国课堂文化传统上强调教师权威、学生尊重和保全面子的行为,这些恰恰可能抑制口头参与——正是人工智能无评判环境可能提供最大裨益的条件。 |
| − | + | '''3. 研究设计与方法''' | |
| − | + | '''3.1 参与者''' | |
共有133名中国大学生参与了本研究。人工智能组包括85名参与者(74%女性,26%男性;平均年龄23.8岁,范围19-38岁)。人类教师组包括48名参与者(89%女性,11%男性;平均年龄23.1岁,范围20-32岁)。所有参与者均就读于中国高校,主要学习英语(人工智能组:38%,人类组:29%)或德语(人工智能组:16%,人类组:25%)作为外语专业。性别失衡——在人类组中更为明显——反映了中国大学外语系的一般人口构成。 | 共有133名中国大学生参与了本研究。人工智能组包括85名参与者(74%女性,26%男性;平均年龄23.8岁,范围19-38岁)。人类教师组包括48名参与者(89%女性,11%男性;平均年龄23.1岁,范围20-32岁)。所有参与者均就读于中国高校,主要学习英语(人工智能组:38%,人类组:29%)或德语(人工智能组:16%,人类组:25%)作为外语专业。性别失衡——在人类组中更为明显——反映了中国大学外语系的一般人口构成。 | ||
| Line 49: | Line 53: | ||
参与者不是随机分配的。一些人选择了自己的组;另一些是被分配的(人类组中44.7%报告为被动分配)。这种自我选择引入了潜在的混淆因素:选择人工智能组的学生可能对技术更好奇或对传统教学更不满意。我们在第5节中讨论了这一局限性。 | 参与者不是随机分配的。一些人选择了自己的组;另一些是被分配的(人类组中44.7%报告为被动分配)。这种自我选择引入了潜在的混淆因素:选择人工智能组的学生可能对技术更好奇或对传统教学更不满意。我们在第5节中讨论了这一局限性。 | ||
| − | + | '''3.2 调查工具''' | |
调查于2025年3月28日通过在线问卷平台(问卷星)以中文进行。包括以下部分: | 调查于2025年3月28日通过在线问卷平台(问卷星)以中文进行。包括以下部分: | ||
| Line 55: | Line 59: | ||
(a)人口统计学:姓名(分析前匿名化)、出生日期、性别(5项)。(b)先前语言水平:中文、英语、德语、法语、日语、韩语及最多三种附加语言的自评CEFR等级(9项)。(c)学习语言和起始水平:与(b)结构相同但针对实验中学习的语言(9项)。(d)学习习惯:每日学习时间(分钟)、组别分配、每日人工智能使用时间(分钟)(3项)。(e)选组原因:按相对重要性评分的5-6个原因(百分比,总计约100%)(6-10项,取决于组别)。(f)人工智能学习方法(仅人工智能组):与人工智能聊天、任务完成、VR课堂、人工智能教师——各按使用份额评分(5项)。(g)对当前学习方法感兴趣的原因:按重要性评分的9-10个原因(10项)。(h)人工智能反馈质量和处理(仅人工智能组):分类评分和是/否回答(2项)。(i)自我报告的总体改善:百分比估计(1项)。(j)感官模式重要性:21项,涵盖视觉、听觉、文本、手势、空间、触觉、嗅觉、味觉、社会(3个子项)、情感(2个子项)、VR沉浸(2个子项)和人工智能沉浸(2个子项),各评分0-100%。(k)感官模式能力:相同的21项,评分为个人能力(0-100%)。(l)组别满意度和转组意愿(4项)。(m)对人工智能的态度:14个陈述,评分0-100%同意度。(n)改善领域:10个语言技能领域按相对改善评分(百分比,总计约100%)(11项)。 | (a)人口统计学:姓名(分析前匿名化)、出生日期、性别(5项)。(b)先前语言水平:中文、英语、德语、法语、日语、韩语及最多三种附加语言的自评CEFR等级(9项)。(c)学习语言和起始水平:与(b)结构相同但针对实验中学习的语言(9项)。(d)学习习惯:每日学习时间(分钟)、组别分配、每日人工智能使用时间(分钟)(3项)。(e)选组原因:按相对重要性评分的5-6个原因(百分比,总计约100%)(6-10项,取决于组别)。(f)人工智能学习方法(仅人工智能组):与人工智能聊天、任务完成、VR课堂、人工智能教师——各按使用份额评分(5项)。(g)对当前学习方法感兴趣的原因:按重要性评分的9-10个原因(10项)。(h)人工智能反馈质量和处理(仅人工智能组):分类评分和是/否回答(2项)。(i)自我报告的总体改善:百分比估计(1项)。(j)感官模式重要性:21项,涵盖视觉、听觉、文本、手势、空间、触觉、嗅觉、味觉、社会(3个子项)、情感(2个子项)、VR沉浸(2个子项)和人工智能沉浸(2个子项),各评分0-100%。(k)感官模式能力:相同的21项,评分为个人能力(0-100%)。(l)组别满意度和转组意愿(4项)。(m)对人工智能的态度:14个陈述,评分0-100%同意度。(n)改善领域:10个语言技能领域按相对改善评分(百分比,总计约100%)(11项)。 | ||
| − | + | '''3.3 数据处理''' | |
回答以0-100%量表记录,0%表示"完全不是",100%表示"完全"或"排他地"。对于需要在多个选项间分配百分比的项目(如选组原因、改善领域),受访者被指示其评分总和应约为100%。并非所有受访者都达到了精确求和;我们报告原始百分比而不进行标准化。缺失值按成对排除。所有统计分析使用Python进行(描述性统计,鉴于探索性和自我选择设计不做推论测试)。 | 回答以0-100%量表记录,0%表示"完全不是",100%表示"完全"或"排他地"。对于需要在多个选项间分配百分比的项目(如选组原因、改善领域),受访者被指示其评分总和应约为100%。并非所有受访者都达到了精确求和;我们报告原始百分比而不进行标准化。缺失值按成对排除。所有统计分析使用Python进行(描述性统计,鉴于探索性和自我选择设计不做推论测试)。 | ||
| − | + | '''3. 结果''' | |
| − | + | '''3.1 每日学习时间和人工智能使用''' | |
两组报告了相似的每日学习时间:人工智能组平均106分钟(中位数60,标准差103),人类组平均96分钟(中位数60,标准差90)。高标准差反映了广泛的变异:一些学生每天学习10分钟,另一些则360分钟。在人工智能组内,平均每日人工智能使用时间为32分钟(中位数15),表明人工智能约占总学习时间的30%,其余时间用于教科书、练习或其他非人工智能方法。 | 两组报告了相似的每日学习时间:人工智能组平均106分钟(中位数60,标准差103),人类组平均96分钟(中位数60,标准差90)。高标准差反映了广泛的变异:一些学生每天学习10分钟,另一些则360分钟。在人工智能组内,平均每日人工智能使用时间为32分钟(中位数15),表明人工智能约占总学习时间的30%,其余时间用于教科书、练习或其他非人工智能方法。 | ||
| − | + | '''3.2 自我报告的总体改善''' | |
人类教师组报告了更高的一个月后总体改善:平均63.2%(中位数70%,标准差27.5%,n=42)对比人工智能组的平均51.9%(中位数50%,标准差18.1%,n=82)。这一发现值得注意:尽管学习时间相似,与人类教师学习的学生感知到了更大的进步。然而,人类组更高的标准差(27.5%对18.1%)表明经验更加异质——一些人类组学生报告了非常高的改善(高达100%),而另一些则低至5%。 | 人类教师组报告了更高的一个月后总体改善:平均63.2%(中位数70%,标准差27.5%,n=42)对比人工智能组的平均51.9%(中位数50%,标准差18.1%,n=82)。这一发现值得注意:尽管学习时间相似,与人类教师学习的学生感知到了更大的进步。然而,人类组更高的标准差(27.5%对18.1%)表明经验更加异质——一些人类组学生报告了非常高的改善(高达100%),而另一些则低至5%。 | ||
| − | + | '''3.3 人工智能反馈质量''' | |
在人工智能组参与者中,对人工智能反馈质量的感知普遍积极:38%评为"非常切题"(75-100分),54%评为"尚可"(50-74分),仅4%评为"一般"(25-49分)。无人评为差。四分之三(76%)报告及时处理人工智能反馈,18%则没有。 | 在人工智能组参与者中,对人工智能反馈质量的感知普遍积极:38%评为"非常切题"(75-100分),54%评为"尚可"(50-74分),仅4%评为"一般"(25-49分)。无人评为差。四分之三(76%)报告及时处理人工智能反馈,18%则没有。 | ||
| − | + | '''3.4 人工智能学习方法''' | |
最受欢迎的人工智能学习方法是与人工智能软件聊天(平均使用份额68.6%)和让人工智能完成任务(66.3%)。人工智能教师功能获得了中等使用(51.3%),而VR课堂使用最少(31.9%)。这种模式表明,对话式人工智能——自由形式的聊天机器人互动——主导了当前的人工智能辅助语言学习,结构化的教学人工智能工具发挥次要作用。 | 最受欢迎的人工智能学习方法是与人工智能软件聊天(平均使用份额68.6%)和让人工智能完成任务(66.3%)。人工智能教师功能获得了中等使用(51.3%),而VR课堂使用最少(31.9%)。这种模式表明,对话式人工智能——自由形式的聊天机器人互动——主导了当前的人工智能辅助语言学习,结构化的教学人工智能工具发挥次要作用。 | ||
| − | + | '''3.5 动机''' | |
选择人工智能组的原因(按重要性评分): | 选择人工智能组的原因(按重要性评分): | ||
| − | 1. 新颖性/尝试新事物:75.4% | + | '''1. 新颖性/尝试新事物:75.4%''' |
| − | 2. 随时随地学习:72.5% | + | '''2. 随时随地学习:72.5%''' |
| − | 3. 沉浸式学习体验:66.9% | + | '''3. 沉浸式学习体验:66.9%''' |
| − | 4. 对传统方法感到厌倦:60.8% | + | '''4. 对传统方法感到厌倦:60.8%''' |
| − | 5. 比人类教师便宜:59.9% | + | '''5. 比人类教师便宜:59.9%''' |
前两个动机——新颖性和灵活性——表明早期人工智能采用者更多是被好奇心和便利性驱动,而非对传统教学的不满。 | 前两个动机——新颖性和灵活性——表明早期人工智能采用者更多是被好奇心和便利性驱动,而非对传统教学的不满。 | ||
| Line 95: | Line 99: | ||
人工智能学习的吸引力(按重要性评分): | 人工智能学习的吸引力(按重要性评分): | ||
| − | 1. 不怕犯错/压力减少:76.6% | + | '''1. 不怕犯错/压力减少:76.6%''' |
| − | 2. 大量知识库/多元话题:74.7% | + | '''2. 大量知识库/多元话题:74.7%''' |
| − | 3. 随时随地学习:71.9% | + | '''3. 随时随地学习:71.9%''' |
| − | 4. 反应速度快:70.4% | + | '''4. 反应速度快:70.4%''' |
| − | 5. 自适应难度匹配:67.8% | + | '''5. 自适应难度匹配:67.8%''' |
| − | 6. 可调节速度、音量、声音:65.3% | + | '''6. 可调节速度、音量、声音:65.3%''' |
| − | 7. 更多鼓励:64.5% | + | '''7. 更多鼓励:64.5%''' |
| − | 8. 便宜得多:59.4% | + | '''8. 便宜得多:59.4%''' |
| − | 9. 更准确的发音纠正:58.5% | + | '''9. 更准确的发音纠正:58.5%''' |
最高评价的优势——"不怕犯错"(76.6%)——与大量关于外语焦虑的研究一致。人工智能聊天机器人创造了语言教育者所称的"低焦虑练习环境",学习者可以在其中进行实验而不会感到社交尴尬。 | 最高评价的优势——"不怕犯错"(76.6%)——与大量关于外语焦虑的研究一致。人工智能聊天机器人创造了语言教育者所称的"低焦虑练习环境",学习者可以在其中进行实验而不会感到社交尴尬。 | ||
| Line 117: | Line 121: | ||
选择人类组的原因: | 选择人类组的原因: | ||
| − | 1. 更喜欢与真人学习:65.7% | + | '''1. 更喜欢与真人学习:65.7%''' |
| − | 2. 激发更深入的思考:63.8% | + | '''2. 激发更深入的思考:63.8%''' |
| − | 3. 更善于发现学习问题:63.6% | + | '''3. 更善于发现学习问题:63.6%''' |
| − | 4. 更精确的水平评估:61.2% | + | '''4. 更精确的水平评估:61.2%''' |
| − | 5. 更多样化的反馈方式:60.5% | + | '''5. 更多样化的反馈方式:60.5%''' |
| − | 6. 反馈中的情感交流:58.2% | + | '''6. 反馈中的情感交流:58.2%''' |
| − | 7. 信任传统教学:52.4% | + | '''7. 信任传统教学:52.4%''' |
| − | 8. 不想改变方法:52.3% | + | '''8. 不想改变方法:52.3%''' |
| − | 9. 人工智能尚未成熟:45.3% | + | '''9. 人工智能尚未成熟:45.3%''' |
| − | 10. 被动分配:44.7% | + | '''10. 被动分配:44.7%''' |
人类组选择的主要原因集中在关系和认知深度上:人类教师提供个人联系、更深入的思考和更细致的评估。这与人工智能组强调便利性和心理舒适形成对比。 | 人类组选择的主要原因集中在关系和认知深度上:人类教师提供个人联系、更深入的思考和更细致的评估。这与人工智能组强调便利性和心理舒适形成对比。 | ||
| − | + | '''3.6 改善领域''' | |
学生评估了在十个具体语言技能领域的改善。结果揭示了显著的互补性: | 学生评估了在十个具体语言技能领域的改善。结果揭示了显著的互补性: | ||
| Line 149: | Line 153: | ||
模式是清晰的:人工智能辅助学习似乎加强了互动性、口头技能(口语、听力、交际自信),而人类教学在结构性、分析性技能(阅读、语法、句法)方面产生了更大的进步。这一发现具有直接的教学意义:人工智能和人类教学作为互补而非替代品可能最为有效,各自针对语言能力的不同方面。 | 模式是清晰的:人工智能辅助学习似乎加强了互动性、口头技能(口语、听力、交际自信),而人类教学在结构性、分析性技能(阅读、语法、句法)方面产生了更大的进步。这一发现具有直接的教学意义:人工智能和人类教学作为互补而非替代品可能最为有效,各自针对语言能力的不同方面。 | ||
| − | + | '''3.7 感官和社会模式偏好''' | |
| + | |||
| + | 参与者评估了十二种感官和社会模式对其语言学习的重要性。两组之间出现了几个显著差异: | ||
| + | |||
| + | 人工智能组更高评价的模式:听觉感知:+40.7个百分点(人工智能79.6%,人类38.9%);书面文本:+37.4个百分点(人工智能74.5%,人类37.1%);内在动机:+35.1个百分点(人工智能77.5%,人类42.4%);外在动机:+30.0个百分点(人工智能69.1%,人类39.1%);视觉感知:+29.3个百分点(人工智能74.6%,人类45.2%);情感/动机:+29.0个百分点(人工智能72.6%,人类43.6%);环境沉浸:+20.6个百分点(人工智能69.9%,人类49.3%);群体互动:+17.7个百分点(人工智能64.6%,人类46.9%)。 | ||
| − | + | 人类组更高评价的模式:味觉:+32.1个百分点(人类76.3%,人工智能44.2%);人工智能教师沉浸:+31.7个百分点(人类83.9%,人工智能52.2%);VR沉浸:+29.3个百分点(人类83.0%,人工智能53.7%);VR伦理:+29.3个百分点(人类81.3%,人工智能52.0%);人工智能聊天机器人沉浸:+27.2个百分点(人类79.4%,人工智能52.2%);社会印象:+21.5个百分点(人类81.5%,人工智能59.9%);嗅觉:+16.0个百分点(人类59.8%,人工智能43.8%)。 | |
这些结果需要谨慎解读。人工智能组对主要语言学习模式——视觉、听觉和文本——以及动机因素赋予了显著更大的重要性。矛盾的是,人类组对人工智能和VR沉浸的重要性评价高于人工智能组。一种解释是,没有直接体验过人工智能沉浸的人类组学生可能将其理想化,而每天使用人工智能工具的人工智能组学生则更加审慎。 | 这些结果需要谨慎解读。人工智能组对主要语言学习模式——视觉、听觉和文本——以及动机因素赋予了显著更大的重要性。矛盾的是,人类组对人工智能和VR沉浸的重要性评价高于人工智能组。一种解释是,没有直接体验过人工智能沉浸的人类组学生可能将其理想化,而每天使用人工智能工具的人工智能组学生则更加审慎。 | ||
| − | + | 人类组对社会印象的更高评价(81.5%对59.9%)与他们所表达的偏好与真人学习的立场一致,反映了社会临场感在语言教育中的重要性——这一因素虽然人工智能工具进步迅速,但当前仍无法完全复制。 | |
| + | |||
| + | '''3.8 对教育和社会中人工智能的态度''' | ||
十四个态度陈述以0-100%同意量表评分。结果揭示了细致入微的图景: | 十四个态度陈述以0-100%同意量表评分。结果揭示了细致入微的图景: | ||
| Line 164: | Line 174: | ||
两组都表达了对人工智能依赖的恐惧:"担心人工智能取代思考能力":人工智能组60.1%,人类组61.0%。"担心知识/技能退化":人工智能组60.6%,人类组66.5%。"担心失去独立性/人工智能成瘾":人工智能组59.6%,人类组71.6%。 | 两组都表达了对人工智能依赖的恐惧:"担心人工智能取代思考能力":人工智能组60.1%,人类组61.0%。"担心知识/技能退化":人工智能组60.6%,人类组66.5%。"担心失去独立性/人工智能成瘾":人工智能组59.6%,人类组71.6%。 | ||
| + | |||
| + | 人类组一贯报告更高的人工智能依赖恐惧,最大差距在成瘾方面(71.6%对59.6%)。人工智能组,或许通过直接经验,发展出了更温和但仍然谨慎的看法。 | ||
两组都强烈支持人工智能伦理:"需要用伦理控制人工智能"获得72.8%(人工智能组)和68.7%(人类组)的同意。 | 两组都强烈支持人工智能伦理:"需要用伦理控制人工智能"获得72.8%(人工智能组)和68.7%(人类组)的同意。 | ||
| − | 两组都拒绝人工智能主导:"让人工智能控制人类"仅获得14.4%(人工智能组)和21.5% | + | 两组都拒绝人工智能主导:"让人工智能控制人类"仅获得14.4%(人工智能组)和21.5%(人类组)的同意。"只有人工智能机器人、不需要人类就够了"仅获得15.2%和19.3%的同意。这些发现表明,2025年的中国大学生保持着坚定的人文主义取向:他们欢迎人工智能作为工具,但拒绝它作为主宰。 |
| + | |||
| + | 对人工智能或教师的浪漫依恋极少:"爱上了人工智能"在两组中平均约为20%,"爱上了人类教师"平均约为20-33%。这些低数字表明,沉浸式人工智能互动并没有——至少对于这一群体——产生一些评论者所预测的情感依赖。中国的文化背景可能在此有所关联:将人工智能视为工具而非伴侣的务实取向,加上围绕人类关系的明确社会规范,可能提供了文化缓冲,防止一些西方人机互动研究中报告的类社交依恋。 | ||
| + | |||
| + | 使用人工智能作为省力工具的意愿中等(两组约39%),表明大多数学生并不将人工智能主要视为捷径。结合对人工智能伦理控制的强烈支持,这一模式表明这是一个认为人工智能有用但有局限的群体——一种精细的立场,驳斥了将中国学生视为不加批判的技术采用者的刻板印象。 | ||
| − | + | '''3.9 详细态度分析''' | |
为更清晰地理解这些细致的态度,我们可以将十四个态度项目分为主题群组: | 为更清晰地理解这些细致的态度,我们可以将十四个态度项目分为主题群组: | ||
| − | + | 群组A——教学偏好:"我喜欢人类教师教我":人工智能组77.7%,人类组83.6%。"我喜欢当前的人工智能教师教我":人工智能组57.3%,人类组38.2%。"我希望未来有更先进的人工智能教师":人工智能组66.4%,人类组53.3%。 | |
| + | |||
| + | 两组都偏好人类教师,但人工智能组对当前和未来人工智能教学都表现出明显更大的开放性。人工智能组中人类教师认可度(77.7%)与当前人工智能教师认可度(57.3%)之间的20个百分点差距——在直接体验人工智能工具之后——表明熟悉带来的是有限度的欣赏而非热情。 | ||
| + | |||
| + | 群组B——对人工智能的恐惧:"担心人工智能取代思考能力":人工智能组60.1%,人类组61.0%。"担心知识/技能退化":人工智能组60.6%,人类组66.5%。"担心失去独立性/人工智能成瘾":人工智能组59.6%,人类组71.6%。"不担心:专注于其他领域":人工智能组55.7%,人类组53.4%。 | ||
| + | |||
| + | 两组都对认知萎缩有相当大的焦虑——Fang Lu的定性数据使这一担忧更加生动具体。人类组对成瘾的更高恐惧(71.6%对59.6%)可能反映了对人工智能互动实际涉及内容的不够分化的理解:未知往往比已知更令人恐惧。 | ||
| − | + | 群组C——人工智能治理:"需要用伦理控制人工智能":人工智能组72.8%,人类组68.7%。"给人工智能自由发展下一代":人工智能组47.5%,人类组50.0%。"让人工智能控制人类":人工智能组14.4%,人类组21.5%。"只有人工智能机器人、不需要人类就够了":人工智能组15.2%,人类组19.3%。 | |
| − | + | 治理态度揭示了一个清晰的层次:强烈支持伦理控制,对人工智能自主性持矛盾态度,坚决拒绝人工智能霸权。两组之间的一致性表明,这些态度反映的是更广泛的代际共识而非特定于组别的效应。 | |
| − | + | '''3.10 组别满意度和转组意愿''' | |
两组都报告了较高的分配满意度:人工智能组80.9%(中位数80%),人类组76.7%(中位数85%)。然而,转组意愿讲述了不同的故事:47%的人工智能组和高达68%的人类组表示愿意转组。人类组的高转组率表明,许多人类组学生对人工智能辅助学习感到好奇,即使对当前体验感到满意——这与人工智能被视为新颖和有吸引力的更广泛文化时刻一致。 | 两组都报告了较高的分配满意度:人工智能组80.9%(中位数80%),人类组76.7%(中位数85%)。然而,转组意愿讲述了不同的故事:47%的人工智能组和高达68%的人类组表示愿意转组。人类组的高转组率表明,许多人类组学生对人工智能辅助学习感到好奇,即使对当前体验感到满意——这与人工智能被视为新颖和有吸引力的更广泛文化时刻一致。 | ||
| − | + | 在描述转组偏好的人工智能组受访者中,最常见的回答是"人工智能组:方便"(便利),表明那些愿意留下的人将实际的可及性置于首位。在人类组受访者中,一些人表达了深思熟虑的立场:"人工智能尚不完善"(AI不完善),"人类组的教学方法比较适合我",以及值得注意的是:"我更喜欢自己探索。人类永远不会被AI取代"——这一表述概括了大多数受访者所持有的人文主义立场。 | |
| + | |||
| + | '''4. 讨论''' | ||
结果描绘了一幅抗拒简单结论的细致入微的图景。我们围绕五个主题组织讨论:人工智能和人类教学的互补性、与本卷配套论文的对话、焦虑减少机制、模式差异以及对欧中比较教育的启示。 | 结果描绘了一幅抗拒简单结论的细致入微的图景。我们围绕五个主题组织讨论:人工智能和人类教学的互补性、与本卷配套论文的对话、焦虑减少机制、模式差异以及对欧中比较教育的启示。 | ||
| − | + | '''4.1 互补性论题''' | |
我们的核心发现——人工智能辅助学习加强互动式口头技能,而人类教学加强结构性分析技能——支持我们所称的互补性论题:人工智能和人类教学不是替代品而是互补品,各自更适合语言能力的不同维度。这一发现挑战了技术乐观主义(人工智能将取代人类教师)和技术悲观主义(人工智能无法有效教学)两种立场。 | 我们的核心发现——人工智能辅助学习加强互动式口头技能,而人类教学加强结构性分析技能——支持我们所称的互补性论题:人工智能和人类教学不是替代品而是互补品,各自更适合语言能力的不同维度。这一发现挑战了技术乐观主义(人工智能将取代人类教师)和技术悲观主义(人工智能无法有效教学)两种立场。 | ||
| − | + | 其机制是合理的,且建立在已确立的第二语言习得(SLA)理论基础上。人工智能聊天机器人提供无限制的、耐心的、无评判的对话练习——恰恰是促进口语流利性和听力理解的条件。这与Long(1996)的互动假说一致,该假说认为会话互动——包括意义协商、重述和理解检查——驱动语言习得。人工智能聊天机器人提供了大量互动,尽管缺少Long所强调的人类互动特征。人类教师提供结构化教学、错误分析和元语言解释——恰恰是促进语法准确性、阅读理解和句法意识的条件。这与Swain(2000)的输出假说一致,该假说认为学习者不仅需要可理解的输入,还需要产出语言并接受推动他们超越当前能力的纠正性反馈的机会。 | |
互补性论题具有实际意义:教育者不应争论人工智能是否应该取代人类教师(我们的数据明确回答了这个问题:不应该),而应询问如何在统一课程中协调人工智能和人类教学以服务于不同的学习目标。 | 互补性论题具有实际意义:教育者不应争论人工智能是否应该取代人类教师(我们的数据明确回答了这个问题:不应该),而应询问如何在统一课程中协调人工智能和人类教学以服务于不同的学习目标。 | ||
| − | + | '''4.2 与Fang Lu的对话''' | |
| − | + | Fang Lu的定性研究(本卷)确定了人工智能辅助语言学习的一个关键风险:批判性思维、创造力和独立判断力可能遭到侵蚀。她的案例研究——一名初级学生的人工智能辅助写作在结构上完美但智力上肤浅,以及一名高级学生的人工智能辅助翻译虽流利但缺乏文化细微差别——说明了"拔苗助长"现象:人工智能加速了表面层面的表现同时削弱了更深层的认知发展。 | |
| − | + | 我们的定量数据既支持又使Fang Lu的发现复杂化。人类组在语法和句法方面的更大改善——需要分析推理而非模式复制的技能——与她对人工智能可能绕过而非发展认知技能的担忧一致。然而,人工智能组在交际自信方面的更大改善表明,人工智能服务于一种真正重要的功能,而人类教学往往未能提供:创造一个心理安全的口语练习空间。 | |
| − | + | 其含义不是应该避免人工智能,而是应该谨慎界定其角色。人工智能似乎最有利于流利性发展和焦虑减少;人类教学似乎最有利于准确性发展和分析性思维。一个精心设计的课程将同时部署两者。 | |
| − | + | '''4.3 与Ole Döring的对话''' | |
| − | + | Döring的哲学论文(本卷)挑战了"人工智能"这一概念应用于教学的合理性,认为德国哲学传统中理性(Vernunft,判断)与知性(Verstand,计算)的区分揭示了声称机器可以"教学"的根本范畴错误。Döring认为,机器所做的是处理——而非理解、判断或关怀。 | |
| − | + | 我们的态度数据与Döring的分析相呼应。当学生以78-84%"喜欢"人类教师但仅以38-57%"喜欢"人工智能教师时,他们可能正是在回应Döring所确定的区别:人类教师提供理性——判断、关怀、对个体学习者的理解——而人工智能提供知性——计算、模式匹配、信息检索。两者都有用,但不等价。 | |
| − | 人工智能学习的最高评价优势——"不怕犯错"(76.6% | + | 学生对人工智能伦理控制的强烈支持(70%以上)和对人工智能主导的强烈拒绝(不到20%)进一步支持了Döring的人文主义立场。这133名中国大学生虽然热情使用人工智能工具,但在人类和机器能动性之间维持着清晰的概念边界。 |
| + | |||
| + | '''4.4 无压力环境''' | ||
| + | |||
| + | 人工智能学习的最高评价优势——"不怕犯错"(76.6%)——值得特别关注。外语焦虑是语言习得中记录最为广泛的障碍之一。传统课堂环境中固有的表演、评判和面子的社交动态产生的焦虑会抑制练习,特别是口语练习。人工智能聊天机器人完全规避了这一点:没有观众、没有评判、没有丢面子。 | ||
这一发现表明,人工智能对教育的主要贡献可能不是作为教师而是作为练习伙伴——一个永不疲倦、耐心、永不评判、永不失去耐心、永不产生社交焦虑的对话者。如果这是正确的,最优的教育模式不是"用人工智能代替人类教师",而是"用人工智能补充人类教师",特别是在焦虑最能抑制表现的语言学习练习环节。 | 这一发现表明,人工智能对教育的主要贡献可能不是作为教师而是作为练习伙伴——一个永不疲倦、耐心、永不评判、永不失去耐心、永不产生社交焦虑的对话者。如果这是正确的,最优的教育模式不是"用人工智能代替人类教师",而是"用人工智能补充人类教师",特别是在焦虑最能抑制表现的语言学习练习环节。 | ||
| − | + | '''4.5 模式差异及其启示''' | |
| − | + | 两组之间感官模式偏好的显著差异——人工智能组学生更看重视觉、听觉和文本输入,人类组学生更看重社会印象、VR沉浸和身体感官——表明两组可能有根本不同的学习取向。人工智能组学生似乎是认知取向的学习者,优先考虑信息输入渠道。人类组学生似乎是社会和身体取向的学习者,优先考虑关系和具身体验。 | |
| − | + | 这些差异究竟是组别选择的原因还是结果尚不清楚。偏好认知输入渠道的学生可能因为人工智能工具恰恰提供这些渠道而选择了人工智能组。另一种可能是,一个月的人工智能辅助学习可能使学生习惯于重视认知输入而非社会体验。纵向研究将有助于理清这些可能性。 | |
| + | |||
| + | '''4.6 对欧中比较教育的启示''' | ||
| + | |||
| + | 我们的发现对本卷所涉及的欧中教育对话具有特殊相关性。欧洲语言教育受《欧洲语言共同参考框架》(CEFR)和交际教学法的影响,传统上强调口语能力、互动和任务式学习。中国语言教育受应试文化和语法-翻译教学法的影响,传统上强调阅读、写作、语法和词汇。人工智能作为练习伙伴的出现可能有助于弥合这一差距:缺乏与人类说话者进行真实口语练习机会的中国学生可以使用人工智能来发展欧洲教学方法优先考虑的交际技能。 | ||
| + | |||
| + | 与此同时,欧洲对批判性思维、学习者自主性和反思性实践的强调——这些价值在《欧盟数字教育行动计划》(2021-2027)中有所体现——为人工智能练习可能发展流利性而非深度的风险提供了必要的对冲。Fang Lu的案例研究具体说明了这一风险:那位人工智能辅助写作流利但智力空洞的学生发展了表面能力,而没有人类互动所促进的更深层认知参与。 | ||
| + | |||
| + | 因此,一种欧中融合的人工智能整合语言教育模式可以将中国学生对人工智能工具的热情采用与强调批判性思维和反思性实践的欧洲教学框架相结合。技术提供媒介;教学法提供目的。 | ||
| + | |||
| + | '''4.7 实践建议''' | ||
基于我们的发现,我们为考虑将人工智能整合到外语教学中的教育者提供四项建议: | 基于我们的发现,我们为考虑将人工智能整合到外语教学中的教育者提供四项建议: | ||
| Line 227: | Line 265: | ||
第三,主动应对学生的人工智能焦虑。两组中超过60%的学生表达了对人工智能取代其思考能力或侵蚀其技能的恐惧。这些担忧是合理的,应通过明确讨论人工智能的局限性、人工智能使用的伦理框架以及要求独立批判性思维的作业来加以应对。 | 第三,主动应对学生的人工智能焦虑。两组中超过60%的学生表达了对人工智能取代其思考能力或侵蚀其技能的恐惧。这些担忧是合理的,应通过明确讨论人工智能的局限性、人工智能使用的伦理框架以及要求独立批判性思维的作业来加以应对。 | ||
| − | + | 第四,设计人工智能无法走捷径的评估。正如Fang Lu的案例所示,人工智能可以产出掩盖肤浅理解的精美输出。评估应包括口试、即兴回答和需要真正分析推理的任务——人工智能协助要么不可用要么明显人工化的领域。 | |
| − | + | '''5. 局限性''' | |
| − | + | 几个局限性制约了对这些结果的解读: | |
| + | |||
| + | 第一,本研究完全依赖自我报告数据。学生对其改善的感知可能与标准化测试所测量的实际改善不一致。前后测设计将提供更稳健的证据。 | ||
| + | |||
| + | 第二,非随机组别分配引入了自选偏差。选择人工智能组的学生可能在技术素养、学习动机、个性或其他未测量变量方面与选择或被分配到人类组的学生存在系统性差异。人工智能组更高的男性比例(26%对11%)和更广的年龄范围表明存在一些人口统计学差异,尽管这些差异对语言学习成果的实际意义尚不明确。 | ||
| + | |||
| + | 第三,一个月的观察期较短。语言学习是一个长期过程,人工智能与人类教学的相对优势可能在更长的时期内发生变化。人工智能组在口语方面的优势可能是一种早期的流利性增长,之后趋于平台期,而人类组在语法方面的优势可能随时间累积。 | ||
| + | |||
| + | 第四,样本完全是中国大学生,以女性为主,学习英语或德语。对其他文化背景、年龄组、性别或目标语言的推广性不确定。应强调我们发现的文化特殊性:中国课堂文化对保全面子和教师权威的强调,可能以在教师-学生关系更为随意的文化中不那么显著的方式,放大了人工智能的焦虑减少效益。 | ||
| + | |||
| + | 第五,所有测量均为自我报告。"改善领域"数据(第3.6节)代表的是学生对其改善位置的感知,而非客观测量的进步。学生可能高估了他们练习最多的领域的改善(将练习与进步混淆)或低估了意识感知较弱领域的改善。 | ||
| + | |||
| + | 第六,调查在单一时间点进行。纵向数据——跟踪一个完整学期或学年的动机、态度和成果——将提供更丰富的图景。对同一参与者在六个月或一年后继续学习的后续研究将特别有价值,可以检验互补性论题是否在更长的学习期间内成立。 | ||
尽管存在这些局限性,本研究提供了迄今为止关于人工智能辅助与人类教授语言学习的样本量最大的比较调查之一,调查工具的广度——涵盖动机、模式偏好、态度和特定技能改善——提供了大多数现有研究所缺乏的多维图景。 | 尽管存在这些局限性,本研究提供了迄今为止关于人工智能辅助与人类教授语言学习的样本量最大的比较调查之一,调查工具的广度——涵盖动机、模式偏好、态度和特定技能改善——提供了大多数现有研究所缺乏的多维图景。 | ||
| − | + | '''6. 结论''' | |
本研究对133名中国大学生使用人工智能辅助(n=85)和人类教师(n=48)学习外语的调查得出四个主要发现: | 本研究对133名中国大学生使用人工智能辅助(n=85)和人类教师(n=48)学习外语的调查得出四个主要发现: | ||
| Line 247: | Line 297: | ||
第四,人类组对人工智能和VR沉浸的矛盾性更高评价表明了对未体验过的技术的好奇心,而人工智能组更审慎的评估反映了实际使用的调节效应。 | 第四,人类组对人工智能和VR沉浸的矛盾性更高评价表明了对未体验过的技术的好奇心,而人工智能组更审慎的评估反映了实际使用的调节效应。 | ||
| − | + | 这些发现为教育设计带来了明确的启示。证据不支持用人工智能取代人类教师,也不支持将人工智能排除在语言教育之外。相反,它指向一种整合模式,在这种模式中,人工智能作为互补性练习伙伴——提供无限制的、无评判的对话练习以发展口语流利性和交际自信——而人类教师提供发展语法能力、阅读理解和批判性思维的结构化教学、分析指导和社会陪伴。这一模式将尊重我们数据所记录的技术可能性,也尊重Döring所阐述的哲学关切和Fang Lu所提出的教学警示。随着人工智能能力的不断进步,问题将不是是否在语言教育中使用人工智能,而是如何明智地使用它——这是一个需要持续的实证研究、哲学反思和教学创新的问题。 | |
| − | + | '''致谢''' | |
由欧盟共同资助。所表达的观点和意见仅代表作者本人,不一定反映欧盟的立场[101126782]。 | 由欧盟共同资助。所表达的观点和意见仅代表作者本人,不一定反映欧盟的立场[101126782]。 | ||
| Line 255: | Line 305: | ||
我们感谢学生参与者的坦诚回答,以及协助施测的同事们。 | 我们感谢学生参与者的坦诚回答,以及协助施测的同事们。 | ||
| − | + | '''参考文献''' | |
| + | |||
| + | Chapelle, C. A. (2001). ''Computer Applications in Second Language Acquisition''. Cambridge University Press. | ||
| + | |||
| + | Döring, O. (this volume). AI and pedagogy: Between artificial intelligence and human understanding. | ||
| + | |||
| + | Garrett, N. (2009). Computer-assisted language learning trends and issues revisited: Integrating innovation. ''The Modern Language Journal'', 93(s1), 719–740. | ||
| − | + | Godwin-Jones, R. (2015). Contributing, creating, curating: Digital literacies for language learners. ''Language Learning & Technology'', 19(3), 8–20. | |
| − | + | Golonka, E. M., Bowles, A. R., Frank, V. M., Richardson, D. L., & Freynik, S. (2014). Technologies for foreign language learning: A review of technology types and their effectiveness. ''Computer Assisted Language Learning'', 27(1), 70–105. | |
| − | + | Horwitz, E. K., Horwitz, M. B., & Cope, J. (1986). Foreign language classroom anxiety. ''The Modern Language Journal'', 70(2), 125–132. | |
| − | + | Huang, W., Hew, K. F., & Fryer, L. K. (2022). Chatbots for language learning — Are they really useful? A systematic review of chatbot-supported language learning. ''Journal of Computer Assisted Learning'', 38(1), 237–257. | |
| − | + | Jeon, J. (2022). Exploring AI chatbot affordances in the EFL classroom: Young learners' experiences and perspectives. ''Computer Assisted Language Learning'', 37(1–2), 1–26. | |
| − | + | Kim, N. Y. (2019). A study on the use of artificial intelligence chatbots for improving English grammar skills. ''Journal of Digital Convergence'', 17(8), 37–46. | |
| − | + | Krashen, S. D. (1982). ''Principles and Practice in Second Language Acquisition''. Pergamon Press. | |
| − | + | Lai, C., & Zheng, D. (2018). Self-directed use of mobile devices for language learning beyond the classroom. ''ReCALL'', 30(3), 299–318. | |
| − | + | Long, M. H. (1996). The role of the linguistic environment in second language acquisition. In W. C. Ritchie & T. K. Bhatia (Eds.), ''Handbook of Second Language Acquisition'' (pp. 413–468). Academic Press. | |
| − | + | Lu, F. (this volume). AI in Chinese teaching: Opportunities and challenges from the perspective of critical thinking. | |
| − | + | MacIntyre, P. D., & Gardner, R. C. (1994). The subtle effects of language anxiety on cognitive processing in the second language. ''Language Learning'', 44(2), 283–305. | |
| − | + | Swain, M. (2000). The output hypothesis and beyond: Mediating acquisition through collaborative dialogue. In J. P. Lantolf (Ed.), ''Sociocultural Theory and Second Language Learning'' (pp. 97–114). Oxford University Press. | |
| − | + | World Economic Forum. (2025). ''The Future of Jobs Report 2025''. Geneva: WEF. | |
| − | + | <references /> | |
Latest revision as of 08:06, 8 April 2026
第五章
使用和不使用人工智能学习外语:一项实证比较研究
Martin Woesler
湖南师范大学
摘要
本研究比较了133名中国大学生——85名在人工智能辅助组,48名在传统人类教师组——在约一个月时间里自我报告的外语学习成果、动机和态度。基于涵盖人口统计学、学习方法、感官模式偏好、对教育中人工智能的态度以及十个语言技能领域自我评估改善的126个变量的综合调查工具,本研究发现了一幅复杂的图景,挑战了技术乐观主义和技术悲观主义的叙事。人类教师组报告了更高的总体改善(63.2%对51.9%),但人工智能组在口语和听力方面报告了更大的进步——恰恰是人工智能聊天机器人被设计用来练习的互动技能。两组都表现出对人类教师的强烈偏好,但人工智能组同时重视人工智能的可用性、速度和无压力环境。两组对人工智能自主性的态度都很谨慎:超过70%的人同意人工智能需要伦理控制,不到20%的人赞成人工智能对人类的主导地位。这些发现为关于教育中人工智能的日益增长的文献做出了贡献,并结合Fang Lu(本卷)的定性研究和Ole Döring(本卷)的哲学框架进行了讨论。
关键词:人工智能辅助语言学习、比较研究、外语教育、人机交互、数字教育、感官模式、学生态度、中国、欧盟、互补性论题
1. 引言
将人工智能整合到语言教育中已以惊人的速度从推测性的未来主义转变为日常实践。2025年的中国大学生日常使用人工智能聊天机器人——ChatGPT、Kimi、DeepSeek、豆包——作为对话伙伴、发音教练、语法检查器和词汇辅导工具。然而,关于人工智能辅助语言学习是否比传统人类教学产生更好成果的实证证据仍然出人意料地薄弱。大多数现有研究规模小、只关注单一人工智能工具或只衡量非常短期的成果。缺乏的是一项不仅考察学习成果,还考察人工智能辅助与人类教学语言学习的动机、态度和感知维度的比较研究。
本研究弥补了这一空白。我们调查了133名中国大学生——85名选择或被分配使用人工智能辅助学习外语,48名与人类教师学习——在约一个月的学习之后。调查工具包含126个变量,涵盖人口统计学、先前语言知识、每日学习时间、选组原因、人工智能使用方法、反馈质量感知、十个具体技能领域的自我评估改善、十二种感官和社会模式在学习中的重要性,以及对教育和社会中人工智能十四个方面的态度。
我们的发现置于越来越多的中欧数字教育研究文献中,包括Fang Lu(本卷)的定性案例研究——她考察了人工智能对波士顿学院中文课程批判性思维的影响——以及Ole Döring(本卷)的哲学分析——他探究了教育学语境中"人工智能"的概念基础。Fang Lu通过个案提供了深度,Döring提供了哲学广度,而我们通过对相当数量参与者群体的定量比较做出了广度上的贡献。
2. 文献综述
2.1 语言教育中的人工智能:技术现状
将技术应用于语言学习有着悠久的历史,从1960年代的语言实验室到1990年代的计算机辅助语言学习(CALL),再到当前一代的人工智能工具。Chapelle(2001)为评估第二语言习得中的技术提供了早期框架,强调语言学习潜力、学习者适合度和实际考虑的重要性。Golonka等人(2014)回顾了350项关于外语学习中技术类型的研究,发现虽然技术在词汇习得和阅读理解方面显示出前景,但口语和写作方面的证据有限。
大型语言模型(LLM)——ChatGPT、Claude及其中国对应产品Kimi、DeepSeek和豆包——的出现从根本上改变了格局。与依赖脚本对话和关键词匹配的早期聊天机器人不同,基于LLM的聊天机器人可以在几乎任何主题上维持开放式的、语境适当的对话。Huang、Hew和Fryer(2022)对聊天机器人支持的语言学习进行了系统综述,发现对词汇习得和口语自信有积极影响,但指出大多数研究存在样本量小、持续时间短和缺乏控制组的问题。
Jeon(2022)探索了韩国年轻EFL学习者使用人工智能聊天机器人的可供性,发现学生欣赏聊天机器人的耐心、可用性和非评判性——我们的数据有力地证实了这些发现。Kim(2019)报告说,人工智能聊天机器人互动提高了韩国大学生的英语语法技能——我们的数据仅部分支持这一发现(我们的人工智能组语法改善实际上更低)。
2.2 外语焦虑
语言学习的心理维度自Horwitz、Horwitz和Cope(1986)开发外语课堂焦虑量表(FLCAS)以来得到了广泛研究。MacIntyre和Gardner(1994)证明了语言焦虑对第二语言认知加工的可测量影响:焦虑的学习者信息处理更慢,词汇回忆更少,产出的语句复杂性更低。Krashen(1982)的"情感过滤器"假说认为,消极的情绪状态——焦虑、自我怀疑、无聊——创造了阻碍语言习得的心理障碍。
这与人工智能辅助学习直接相关。如果人工智能聊天机器人能够通过提供无评判的练习环境来降低情感过滤器,它们可能使学习者比在产生焦虑的人类课堂中更有效地处理和产出语言。我们的数据表明这种机制正在起作用:人工智能组最高评价的优势是"不怕犯错"(76.6%),而且人工智能组恰恰在那些受焦虑抑制最强的技能——口语、听力、交际自信——上报告了更大的改善。
2.3 中国背景
中国的教育人工智能格局是独特的。中国政府的"新一代人工智能发展规划"(2017年)和"教育现代化2035"计划都将人工智能确定为教育改革的战略优先事项。中国学生可以使用一系列国产人工智能工具——包括Kimi(月之暗面)、DeepSeek、豆包(字节跳动)和文心一言(百度)——以及ChatGPT等国际工具(通过VPN访问)。文化背景也很相关:中国课堂文化传统上强调教师权威、学生尊重和保全面子的行为,这些恰恰可能抑制口头参与——正是人工智能无评判环境可能提供最大裨益的条件。
3. 研究设计与方法
3.1 参与者
共有133名中国大学生参与了本研究。人工智能组包括85名参与者(74%女性,26%男性;平均年龄23.8岁,范围19-38岁)。人类教师组包括48名参与者(89%女性,11%男性;平均年龄23.1岁,范围20-32岁)。所有参与者均就读于中国高校,主要学习英语(人工智能组:38%,人类组:29%)或德语(人工智能组:16%,人类组:25%)作为外语专业。性别失衡——在人类组中更为明显——反映了中国大学外语系的一般人口构成。
参与者不是随机分配的。一些人选择了自己的组;另一些是被分配的(人类组中44.7%报告为被动分配)。这种自我选择引入了潜在的混淆因素:选择人工智能组的学生可能对技术更好奇或对传统教学更不满意。我们在第5节中讨论了这一局限性。
3.2 调查工具
调查于2025年3月28日通过在线问卷平台(问卷星)以中文进行。包括以下部分:
(a)人口统计学:姓名(分析前匿名化)、出生日期、性别(5项)。(b)先前语言水平:中文、英语、德语、法语、日语、韩语及最多三种附加语言的自评CEFR等级(9项)。(c)学习语言和起始水平:与(b)结构相同但针对实验中学习的语言(9项)。(d)学习习惯:每日学习时间(分钟)、组别分配、每日人工智能使用时间(分钟)(3项)。(e)选组原因:按相对重要性评分的5-6个原因(百分比,总计约100%)(6-10项,取决于组别)。(f)人工智能学习方法(仅人工智能组):与人工智能聊天、任务完成、VR课堂、人工智能教师——各按使用份额评分(5项)。(g)对当前学习方法感兴趣的原因:按重要性评分的9-10个原因(10项)。(h)人工智能反馈质量和处理(仅人工智能组):分类评分和是/否回答(2项)。(i)自我报告的总体改善:百分比估计(1项)。(j)感官模式重要性:21项,涵盖视觉、听觉、文本、手势、空间、触觉、嗅觉、味觉、社会(3个子项)、情感(2个子项)、VR沉浸(2个子项)和人工智能沉浸(2个子项),各评分0-100%。(k)感官模式能力:相同的21项,评分为个人能力(0-100%)。(l)组别满意度和转组意愿(4项)。(m)对人工智能的态度:14个陈述,评分0-100%同意度。(n)改善领域:10个语言技能领域按相对改善评分(百分比,总计约100%)(11项)。
3.3 数据处理
回答以0-100%量表记录,0%表示"完全不是",100%表示"完全"或"排他地"。对于需要在多个选项间分配百分比的项目(如选组原因、改善领域),受访者被指示其评分总和应约为100%。并非所有受访者都达到了精确求和;我们报告原始百分比而不进行标准化。缺失值按成对排除。所有统计分析使用Python进行(描述性统计,鉴于探索性和自我选择设计不做推论测试)。
3. 结果
3.1 每日学习时间和人工智能使用
两组报告了相似的每日学习时间:人工智能组平均106分钟(中位数60,标准差103),人类组平均96分钟(中位数60,标准差90)。高标准差反映了广泛的变异:一些学生每天学习10分钟,另一些则360分钟。在人工智能组内,平均每日人工智能使用时间为32分钟(中位数15),表明人工智能约占总学习时间的30%,其余时间用于教科书、练习或其他非人工智能方法。
3.2 自我报告的总体改善
人类教师组报告了更高的一个月后总体改善:平均63.2%(中位数70%,标准差27.5%,n=42)对比人工智能组的平均51.9%(中位数50%,标准差18.1%,n=82)。这一发现值得注意:尽管学习时间相似,与人类教师学习的学生感知到了更大的进步。然而,人类组更高的标准差(27.5%对18.1%)表明经验更加异质——一些人类组学生报告了非常高的改善(高达100%),而另一些则低至5%。
3.3 人工智能反馈质量
在人工智能组参与者中,对人工智能反馈质量的感知普遍积极:38%评为"非常切题"(75-100分),54%评为"尚可"(50-74分),仅4%评为"一般"(25-49分)。无人评为差。四分之三(76%)报告及时处理人工智能反馈,18%则没有。
3.4 人工智能学习方法
最受欢迎的人工智能学习方法是与人工智能软件聊天(平均使用份额68.6%)和让人工智能完成任务(66.3%)。人工智能教师功能获得了中等使用(51.3%),而VR课堂使用最少(31.9%)。这种模式表明,对话式人工智能——自由形式的聊天机器人互动——主导了当前的人工智能辅助语言学习,结构化的教学人工智能工具发挥次要作用。
3.5 动机
选择人工智能组的原因(按重要性评分):
1. 新颖性/尝试新事物:75.4%
2. 随时随地学习:72.5%
3. 沉浸式学习体验:66.9%
4. 对传统方法感到厌倦:60.8%
5. 比人类教师便宜:59.9%
前两个动机——新颖性和灵活性——表明早期人工智能采用者更多是被好奇心和便利性驱动,而非对传统教学的不满。
人工智能学习的吸引力(按重要性评分):
1. 不怕犯错/压力减少:76.6%
2. 大量知识库/多元话题:74.7%
3. 随时随地学习:71.9%
4. 反应速度快:70.4%
5. 自适应难度匹配:67.8%
6. 可调节速度、音量、声音:65.3%
7. 更多鼓励:64.5%
8. 便宜得多:59.4%
9. 更准确的发音纠正:58.5%
最高评价的优势——"不怕犯错"(76.6%)——与大量关于外语焦虑的研究一致。人工智能聊天机器人创造了语言教育者所称的"低焦虑练习环境",学习者可以在其中进行实验而不会感到社交尴尬。
选择人类组的原因:
1. 更喜欢与真人学习:65.7%
2. 激发更深入的思考:63.8%
3. 更善于发现学习问题:63.6%
4. 更精确的水平评估:61.2%
5. 更多样化的反馈方式:60.5%
6. 反馈中的情感交流:58.2%
7. 信任传统教学:52.4%
8. 不想改变方法:52.3%
9. 人工智能尚未成熟:45.3%
10. 被动分配:44.7%
人类组选择的主要原因集中在关系和认知深度上:人类教师提供个人联系、更深入的思考和更细致的评估。这与人工智能组强调便利性和心理舒适形成对比。
3.6 改善领域
学生评估了在十个具体语言技能领域的改善。结果揭示了显著的互补性:
人工智能组报告更大改善的领域:口语:+12.6个百分点(人工智能58.4%,人类45.8%);听力:+10.2个百分点(人工智能53.6%,人类43.5%);交际自信:+8.3个百分点(人工智能55.2%,人类46.9%);同义词/多样表达:+5.6个百分点(人工智能56.8%,人类51.2%)。
人类组报告更大改善的领域:阅读:+14.0个百分点(人类63.7%,人工智能49.8%);语法:+10.1个百分点(人类57.0%,人工智能46.9%);句法:+9.3个百分点(人类57.1%,人工智能47.8%);词汇:+5.2个百分点(人类60.7%,人工智能55.5%);写作:+5.0个百分点(人类51.5%,人工智能46.5%)。
模式是清晰的:人工智能辅助学习似乎加强了互动性、口头技能(口语、听力、交际自信),而人类教学在结构性、分析性技能(阅读、语法、句法)方面产生了更大的进步。这一发现具有直接的教学意义:人工智能和人类教学作为互补而非替代品可能最为有效,各自针对语言能力的不同方面。
3.7 感官和社会模式偏好
参与者评估了十二种感官和社会模式对其语言学习的重要性。两组之间出现了几个显著差异:
人工智能组更高评价的模式:听觉感知:+40.7个百分点(人工智能79.6%,人类38.9%);书面文本:+37.4个百分点(人工智能74.5%,人类37.1%);内在动机:+35.1个百分点(人工智能77.5%,人类42.4%);外在动机:+30.0个百分点(人工智能69.1%,人类39.1%);视觉感知:+29.3个百分点(人工智能74.6%,人类45.2%);情感/动机:+29.0个百分点(人工智能72.6%,人类43.6%);环境沉浸:+20.6个百分点(人工智能69.9%,人类49.3%);群体互动:+17.7个百分点(人工智能64.6%,人类46.9%)。
人类组更高评价的模式:味觉:+32.1个百分点(人类76.3%,人工智能44.2%);人工智能教师沉浸:+31.7个百分点(人类83.9%,人工智能52.2%);VR沉浸:+29.3个百分点(人类83.0%,人工智能53.7%);VR伦理:+29.3个百分点(人类81.3%,人工智能52.0%);人工智能聊天机器人沉浸:+27.2个百分点(人类79.4%,人工智能52.2%);社会印象:+21.5个百分点(人类81.5%,人工智能59.9%);嗅觉:+16.0个百分点(人类59.8%,人工智能43.8%)。
这些结果需要谨慎解读。人工智能组对主要语言学习模式——视觉、听觉和文本——以及动机因素赋予了显著更大的重要性。矛盾的是,人类组对人工智能和VR沉浸的重要性评价高于人工智能组。一种解释是,没有直接体验过人工智能沉浸的人类组学生可能将其理想化,而每天使用人工智能工具的人工智能组学生则更加审慎。
人类组对社会印象的更高评价(81.5%对59.9%)与他们所表达的偏好与真人学习的立场一致,反映了社会临场感在语言教育中的重要性——这一因素虽然人工智能工具进步迅速,但当前仍无法完全复制。
3.8 对教育和社会中人工智能的态度
十四个态度陈述以0-100%同意量表评分。结果揭示了细致入微的图景:
两组都强烈喜欢人类教师:人工智能组77.7%,人类组83.6%。即使经过一个月的人工智能辅助学习,人工智能组学生仍保持对人类教学的强烈欣赏。
人工智能组对人工智能教学更积极:当前人工智能教师认可度为57.3%(人类组为38.2%),未来高级人工智能教师认可度为66.4%(人类组为53.3%)。然而,即使在人工智能组中,当前人工智能教师认可度(57.3%)也大大低于人类教师认可度(77.7%)。
两组都表达了对人工智能依赖的恐惧:"担心人工智能取代思考能力":人工智能组60.1%,人类组61.0%。"担心知识/技能退化":人工智能组60.6%,人类组66.5%。"担心失去独立性/人工智能成瘾":人工智能组59.6%,人类组71.6%。
人类组一贯报告更高的人工智能依赖恐惧,最大差距在成瘾方面(71.6%对59.6%)。人工智能组,或许通过直接经验,发展出了更温和但仍然谨慎的看法。
两组都强烈支持人工智能伦理:"需要用伦理控制人工智能"获得72.8%(人工智能组)和68.7%(人类组)的同意。
两组都拒绝人工智能主导:"让人工智能控制人类"仅获得14.4%(人工智能组)和21.5%(人类组)的同意。"只有人工智能机器人、不需要人类就够了"仅获得15.2%和19.3%的同意。这些发现表明,2025年的中国大学生保持着坚定的人文主义取向:他们欢迎人工智能作为工具,但拒绝它作为主宰。
对人工智能或教师的浪漫依恋极少:"爱上了人工智能"在两组中平均约为20%,"爱上了人类教师"平均约为20-33%。这些低数字表明,沉浸式人工智能互动并没有——至少对于这一群体——产生一些评论者所预测的情感依赖。中国的文化背景可能在此有所关联:将人工智能视为工具而非伴侣的务实取向,加上围绕人类关系的明确社会规范,可能提供了文化缓冲,防止一些西方人机互动研究中报告的类社交依恋。
使用人工智能作为省力工具的意愿中等(两组约39%),表明大多数学生并不将人工智能主要视为捷径。结合对人工智能伦理控制的强烈支持,这一模式表明这是一个认为人工智能有用但有局限的群体——一种精细的立场,驳斥了将中国学生视为不加批判的技术采用者的刻板印象。
3.9 详细态度分析
为更清晰地理解这些细致的态度,我们可以将十四个态度项目分为主题群组:
群组A——教学偏好:"我喜欢人类教师教我":人工智能组77.7%,人类组83.6%。"我喜欢当前的人工智能教师教我":人工智能组57.3%,人类组38.2%。"我希望未来有更先进的人工智能教师":人工智能组66.4%,人类组53.3%。
两组都偏好人类教师,但人工智能组对当前和未来人工智能教学都表现出明显更大的开放性。人工智能组中人类教师认可度(77.7%)与当前人工智能教师认可度(57.3%)之间的20个百分点差距——在直接体验人工智能工具之后——表明熟悉带来的是有限度的欣赏而非热情。
群组B——对人工智能的恐惧:"担心人工智能取代思考能力":人工智能组60.1%,人类组61.0%。"担心知识/技能退化":人工智能组60.6%,人类组66.5%。"担心失去独立性/人工智能成瘾":人工智能组59.6%,人类组71.6%。"不担心:专注于其他领域":人工智能组55.7%,人类组53.4%。
两组都对认知萎缩有相当大的焦虑——Fang Lu的定性数据使这一担忧更加生动具体。人类组对成瘾的更高恐惧(71.6%对59.6%)可能反映了对人工智能互动实际涉及内容的不够分化的理解:未知往往比已知更令人恐惧。
群组C——人工智能治理:"需要用伦理控制人工智能":人工智能组72.8%,人类组68.7%。"给人工智能自由发展下一代":人工智能组47.5%,人类组50.0%。"让人工智能控制人类":人工智能组14.4%,人类组21.5%。"只有人工智能机器人、不需要人类就够了":人工智能组15.2%,人类组19.3%。
治理态度揭示了一个清晰的层次:强烈支持伦理控制,对人工智能自主性持矛盾态度,坚决拒绝人工智能霸权。两组之间的一致性表明,这些态度反映的是更广泛的代际共识而非特定于组别的效应。
3.10 组别满意度和转组意愿
两组都报告了较高的分配满意度:人工智能组80.9%(中位数80%),人类组76.7%(中位数85%)。然而,转组意愿讲述了不同的故事:47%的人工智能组和高达68%的人类组表示愿意转组。人类组的高转组率表明,许多人类组学生对人工智能辅助学习感到好奇,即使对当前体验感到满意——这与人工智能被视为新颖和有吸引力的更广泛文化时刻一致。
在描述转组偏好的人工智能组受访者中,最常见的回答是"人工智能组:方便"(便利),表明那些愿意留下的人将实际的可及性置于首位。在人类组受访者中,一些人表达了深思熟虑的立场:"人工智能尚不完善"(AI不完善),"人类组的教学方法比较适合我",以及值得注意的是:"我更喜欢自己探索。人类永远不会被AI取代"——这一表述概括了大多数受访者所持有的人文主义立场。
4. 讨论
结果描绘了一幅抗拒简单结论的细致入微的图景。我们围绕五个主题组织讨论:人工智能和人类教学的互补性、与本卷配套论文的对话、焦虑减少机制、模式差异以及对欧中比较教育的启示。
4.1 互补性论题
我们的核心发现——人工智能辅助学习加强互动式口头技能,而人类教学加强结构性分析技能——支持我们所称的互补性论题:人工智能和人类教学不是替代品而是互补品,各自更适合语言能力的不同维度。这一发现挑战了技术乐观主义(人工智能将取代人类教师)和技术悲观主义(人工智能无法有效教学)两种立场。
其机制是合理的,且建立在已确立的第二语言习得(SLA)理论基础上。人工智能聊天机器人提供无限制的、耐心的、无评判的对话练习——恰恰是促进口语流利性和听力理解的条件。这与Long(1996)的互动假说一致,该假说认为会话互动——包括意义协商、重述和理解检查——驱动语言习得。人工智能聊天机器人提供了大量互动,尽管缺少Long所强调的人类互动特征。人类教师提供结构化教学、错误分析和元语言解释——恰恰是促进语法准确性、阅读理解和句法意识的条件。这与Swain(2000)的输出假说一致,该假说认为学习者不仅需要可理解的输入,还需要产出语言并接受推动他们超越当前能力的纠正性反馈的机会。
互补性论题具有实际意义:教育者不应争论人工智能是否应该取代人类教师(我们的数据明确回答了这个问题:不应该),而应询问如何在统一课程中协调人工智能和人类教学以服务于不同的学习目标。
4.2 与Fang Lu的对话
Fang Lu的定性研究(本卷)确定了人工智能辅助语言学习的一个关键风险:批判性思维、创造力和独立判断力可能遭到侵蚀。她的案例研究——一名初级学生的人工智能辅助写作在结构上完美但智力上肤浅,以及一名高级学生的人工智能辅助翻译虽流利但缺乏文化细微差别——说明了"拔苗助长"现象:人工智能加速了表面层面的表现同时削弱了更深层的认知发展。
我们的定量数据既支持又使Fang Lu的发现复杂化。人类组在语法和句法方面的更大改善——需要分析推理而非模式复制的技能——与她对人工智能可能绕过而非发展认知技能的担忧一致。然而,人工智能组在交际自信方面的更大改善表明,人工智能服务于一种真正重要的功能,而人类教学往往未能提供:创造一个心理安全的口语练习空间。
其含义不是应该避免人工智能,而是应该谨慎界定其角色。人工智能似乎最有利于流利性发展和焦虑减少;人类教学似乎最有利于准确性发展和分析性思维。一个精心设计的课程将同时部署两者。
4.3 与Ole Döring的对话
Döring的哲学论文(本卷)挑战了"人工智能"这一概念应用于教学的合理性,认为德国哲学传统中理性(Vernunft,判断)与知性(Verstand,计算)的区分揭示了声称机器可以"教学"的根本范畴错误。Döring认为,机器所做的是处理——而非理解、判断或关怀。
我们的态度数据与Döring的分析相呼应。当学生以78-84%"喜欢"人类教师但仅以38-57%"喜欢"人工智能教师时,他们可能正是在回应Döring所确定的区别:人类教师提供理性——判断、关怀、对个体学习者的理解——而人工智能提供知性——计算、模式匹配、信息检索。两者都有用,但不等价。
学生对人工智能伦理控制的强烈支持(70%以上)和对人工智能主导的强烈拒绝(不到20%)进一步支持了Döring的人文主义立场。这133名中国大学生虽然热情使用人工智能工具,但在人类和机器能动性之间维持着清晰的概念边界。
4.4 无压力环境
人工智能学习的最高评价优势——"不怕犯错"(76.6%)——值得特别关注。外语焦虑是语言习得中记录最为广泛的障碍之一。传统课堂环境中固有的表演、评判和面子的社交动态产生的焦虑会抑制练习,特别是口语练习。人工智能聊天机器人完全规避了这一点:没有观众、没有评判、没有丢面子。
这一发现表明,人工智能对教育的主要贡献可能不是作为教师而是作为练习伙伴——一个永不疲倦、耐心、永不评判、永不失去耐心、永不产生社交焦虑的对话者。如果这是正确的,最优的教育模式不是"用人工智能代替人类教师",而是"用人工智能补充人类教师",特别是在焦虑最能抑制表现的语言学习练习环节。
4.5 模式差异及其启示
两组之间感官模式偏好的显著差异——人工智能组学生更看重视觉、听觉和文本输入,人类组学生更看重社会印象、VR沉浸和身体感官——表明两组可能有根本不同的学习取向。人工智能组学生似乎是认知取向的学习者,优先考虑信息输入渠道。人类组学生似乎是社会和身体取向的学习者,优先考虑关系和具身体验。
这些差异究竟是组别选择的原因还是结果尚不清楚。偏好认知输入渠道的学生可能因为人工智能工具恰恰提供这些渠道而选择了人工智能组。另一种可能是,一个月的人工智能辅助学习可能使学生习惯于重视认知输入而非社会体验。纵向研究将有助于理清这些可能性。
4.6 对欧中比较教育的启示
我们的发现对本卷所涉及的欧中教育对话具有特殊相关性。欧洲语言教育受《欧洲语言共同参考框架》(CEFR)和交际教学法的影响,传统上强调口语能力、互动和任务式学习。中国语言教育受应试文化和语法-翻译教学法的影响,传统上强调阅读、写作、语法和词汇。人工智能作为练习伙伴的出现可能有助于弥合这一差距:缺乏与人类说话者进行真实口语练习机会的中国学生可以使用人工智能来发展欧洲教学方法优先考虑的交际技能。
与此同时,欧洲对批判性思维、学习者自主性和反思性实践的强调——这些价值在《欧盟数字教育行动计划》(2021-2027)中有所体现——为人工智能练习可能发展流利性而非深度的风险提供了必要的对冲。Fang Lu的案例研究具体说明了这一风险:那位人工智能辅助写作流利但智力空洞的学生发展了表面能力,而没有人类互动所促进的更深层认知参与。
因此,一种欧中融合的人工智能整合语言教育模式可以将中国学生对人工智能工具的热情采用与强调批判性思维和反思性实践的欧洲教学框架相结合。技术提供媒介;教学法提供目的。
4.7 实践建议
基于我们的发现,我们为考虑将人工智能整合到外语教学中的教育者提供四项建议:
第一,将人工智能用于口语练习,而非作为教学的替代品。数据表明,人工智能最大的贡献在于通过低焦虑的对话练习发展口语流利性和交际自信。这一功能补充而非取代人类教学。
第二,保持人类教学用于分析性技能。语法、句法、阅读理解和写作——在人类组中显示出更大改善的技能——似乎受益于人类教师提供的结构化、解释性和纠正性教学。
第三,主动应对学生的人工智能焦虑。两组中超过60%的学生表达了对人工智能取代其思考能力或侵蚀其技能的恐惧。这些担忧是合理的,应通过明确讨论人工智能的局限性、人工智能使用的伦理框架以及要求独立批判性思维的作业来加以应对。
第四,设计人工智能无法走捷径的评估。正如Fang Lu的案例所示,人工智能可以产出掩盖肤浅理解的精美输出。评估应包括口试、即兴回答和需要真正分析推理的任务——人工智能协助要么不可用要么明显人工化的领域。
5. 局限性
几个局限性制约了对这些结果的解读:
第一,本研究完全依赖自我报告数据。学生对其改善的感知可能与标准化测试所测量的实际改善不一致。前后测设计将提供更稳健的证据。
第二,非随机组别分配引入了自选偏差。选择人工智能组的学生可能在技术素养、学习动机、个性或其他未测量变量方面与选择或被分配到人类组的学生存在系统性差异。人工智能组更高的男性比例(26%对11%)和更广的年龄范围表明存在一些人口统计学差异,尽管这些差异对语言学习成果的实际意义尚不明确。
第三,一个月的观察期较短。语言学习是一个长期过程,人工智能与人类教学的相对优势可能在更长的时期内发生变化。人工智能组在口语方面的优势可能是一种早期的流利性增长,之后趋于平台期,而人类组在语法方面的优势可能随时间累积。
第四,样本完全是中国大学生,以女性为主,学习英语或德语。对其他文化背景、年龄组、性别或目标语言的推广性不确定。应强调我们发现的文化特殊性:中国课堂文化对保全面子和教师权威的强调,可能以在教师-学生关系更为随意的文化中不那么显著的方式,放大了人工智能的焦虑减少效益。
第五,所有测量均为自我报告。"改善领域"数据(第3.6节)代表的是学生对其改善位置的感知,而非客观测量的进步。学生可能高估了他们练习最多的领域的改善(将练习与进步混淆)或低估了意识感知较弱领域的改善。
第六,调查在单一时间点进行。纵向数据——跟踪一个完整学期或学年的动机、态度和成果——将提供更丰富的图景。对同一参与者在六个月或一年后继续学习的后续研究将特别有价值,可以检验互补性论题是否在更长的学习期间内成立。
尽管存在这些局限性,本研究提供了迄今为止关于人工智能辅助与人类教授语言学习的样本量最大的比较调查之一,调查工具的广度——涵盖动机、模式偏好、态度和特定技能改善——提供了大多数现有研究所缺乏的多维图景。
6. 结论
本研究对133名中国大学生使用人工智能辅助(n=85)和人类教师(n=48)学习外语的调查得出四个主要发现:
第一,人类教授的学生报告了更高的总体改善(63.2%对51.9%),但模式是特定于技能的:人工智能辅助学生在口语(+12.6个百分点)、听力(+10.2个百分点)和交际自信(+8.3个百分点)方面改善更大,而人类教授的学生在阅读(+14.0个百分点)、语法(+10.1个百分点)和句法(+9.3个百分点)方面改善更大。这支持了互补性论题:人工智能和人类教学在语言教育中服务于不同的、互补的功能。
第二,人工智能学习的主要感知优势不是信息性的而是心理性的:"不怕犯错"以76.6%获得最高评价。人工智能对语言教育最大的贡献可能是为口语练习创造无压力环境——解决语言习得中最持久的障碍之一。
第三,两组都保持了强烈的人文主义态度。即使经过一个月的人工智能辅助学习,人工智能组学生对人类教师的评价仍高于人工智能教师(77.7%对57.3%)。两组都支持伦理人工智能控制(>68%)并拒绝人工智能对人类的主导(<22%)。
第四,人类组对人工智能和VR沉浸的矛盾性更高评价表明了对未体验过的技术的好奇心,而人工智能组更审慎的评估反映了实际使用的调节效应。
这些发现为教育设计带来了明确的启示。证据不支持用人工智能取代人类教师,也不支持将人工智能排除在语言教育之外。相反,它指向一种整合模式,在这种模式中,人工智能作为互补性练习伙伴——提供无限制的、无评判的对话练习以发展口语流利性和交际自信——而人类教师提供发展语法能力、阅读理解和批判性思维的结构化教学、分析指导和社会陪伴。这一模式将尊重我们数据所记录的技术可能性,也尊重Döring所阐述的哲学关切和Fang Lu所提出的教学警示。随着人工智能能力的不断进步,问题将不是是否在语言教育中使用人工智能,而是如何明智地使用它——这是一个需要持续的实证研究、哲学反思和教学创新的问题。
致谢
由欧盟共同资助。所表达的观点和意见仅代表作者本人,不一定反映欧盟的立场[101126782]。
我们感谢学生参与者的坦诚回答,以及协助施测的同事们。
参考文献
Chapelle, C. A. (2001). Computer Applications in Second Language Acquisition. Cambridge University Press.
Döring, O. (this volume). AI and pedagogy: Between artificial intelligence and human understanding.
Garrett, N. (2009). Computer-assisted language learning trends and issues revisited: Integrating innovation. The Modern Language Journal, 93(s1), 719–740.
Godwin-Jones, R. (2015). Contributing, creating, curating: Digital literacies for language learners. Language Learning & Technology, 19(3), 8–20.
Golonka, E. M., Bowles, A. R., Frank, V. M., Richardson, D. L., & Freynik, S. (2014). Technologies for foreign language learning: A review of technology types and their effectiveness. Computer Assisted Language Learning, 27(1), 70–105.
Horwitz, E. K., Horwitz, M. B., & Cope, J. (1986). Foreign language classroom anxiety. The Modern Language Journal, 70(2), 125–132.
Huang, W., Hew, K. F., & Fryer, L. K. (2022). Chatbots for language learning — Are they really useful? A systematic review of chatbot-supported language learning. Journal of Computer Assisted Learning, 38(1), 237–257.
Jeon, J. (2022). Exploring AI chatbot affordances in the EFL classroom: Young learners' experiences and perspectives. Computer Assisted Language Learning, 37(1–2), 1–26.
Kim, N. Y. (2019). A study on the use of artificial intelligence chatbots for improving English grammar skills. Journal of Digital Convergence, 17(8), 37–46.
Krashen, S. D. (1982). Principles and Practice in Second Language Acquisition. Pergamon Press.
Lai, C., & Zheng, D. (2018). Self-directed use of mobile devices for language learning beyond the classroom. ReCALL, 30(3), 299–318.
Long, M. H. (1996). The role of the linguistic environment in second language acquisition. In W. C. Ritchie & T. K. Bhatia (Eds.), Handbook of Second Language Acquisition (pp. 413–468). Academic Press.
Lu, F. (this volume). AI in Chinese teaching: Opportunities and challenges from the perspective of critical thinking.
MacIntyre, P. D., & Gardner, R. C. (1994). The subtle effects of language anxiety on cognitive processing in the second language. Language Learning, 44(2), 283–305.
Swain, M. (2000). The output hypothesis and beyond: Mediating acquisition through collaborative dialogue. In J. P. Lantolf (Ed.), Sociocultural Theory and Second Language Learning (pp. 97–114). Oxford University Press.
World Economic Forum. (2025). The Future of Jobs Report 2025. Geneva: WEF.