Science & Education Can Generative AI and ChatGPT Outperform Humans on Cognitive‑Demanding Problem‑Solving Tasks in Science? 一 摘要 本研究旨在验证生成式人工智能(GAI)能否突破人类解决问题时的认知负荷局限。以 2019 年 NAEP 54 道科学题为对象,经内容专家采用 “任务认知复杂度 — 维度整合度” 二维框架编码后,ChatGPT 与 GPT-4 独立作答并按 NAEP 标准计分,结合 4、8、12 年级学生答对各题的平均能力得分及答题率展开对比。结果显示:两款 AI 持续优于多数答对题目学生;学生表现随认知需求提升对能力要求显著提高(3学段均成立),但 AI 仅 4 年级对认知需求敏感,其余学段无统计显著性关联。 关键词:生成式人工智能(GAI);ChatGPT;GPT-4;NAEP;科学评估;认知负荷;问题解决 二 引言 1 研究背景 STEM教育通过跨学科整合培养创新能力,但面临工作记忆限制的认知瓶颈。优质教育体系(如新加坡、芬兰)采用高认知教学模式,强调知识整合与创新实践,其价值存在争议:支持者肯定其素养提升作用,质疑者担忧认知超载风险,形成"认知强度是否必然提升学习成果"的核心争议。 2 核心问题 随着ChatGPT、GPT-4等生成式人工智能(GAI)工具的迅速崛起与普及,教育界面临一个根本性的反思:如果生成式人工智能能够克服认知强度的障碍,教育是否还需依赖高认知需求任务来推动有效学习? a) ChatGPT或GPT-4能否在NAEP科学评估中表现优于适龄的普通人类? b) 与适龄的普通学生相比,ChatGPT和GPT-4在NAEP科学评估中按认知需求划分的表现如何? 三 研究方法 1 材料选择 采用2019年美国国家教育进展评估(National Assessment of Educational Progress , NAEP)科学测试的54道公开题目,涵盖物理科学、生命科学及地球与空间科学三大领域。 题目类型包括:33道多项选择题、4道选择回答题(含多选)、11道简答题、3道扩展题以及3道情境任务题。 例题: 2 受测模型 测试对象为ChatGPT和GPT-4,采用零样本闭卷测试方式,确保模型未针对题目进行训练优化。 剔除需图像解析的题目(占原题13%),最终纳入分析的题目为47道。 3 认知负荷编码(CCL)与维度整合 认知复杂性:1级(记忆性任务)至6级(科学实践性任务)。 维度整合:D1(单维)至D3(跨维度交叉): a.依据CSAA(2019)提出的二维框架进行编码; b.由三名领域专家独立编码,计算组内相关系数(ICC)以确保信度(ICC=0.978)。 4 对照数据 使用美国国家教育统计中心(NCES)提供的公开聚合数据,包括: 每题正确学生的平均能力分数(RASAS)。 每题的正确率(POS)。 5 统计分析 采用Kendall’s τb检验分析认知负荷与AI/人类表现的相关性。 设定显著性水平α=0.05(双侧检验)。 四 结果 a)ChatGPT 或 GPT-4 能在 NAEP 科学评估中超越人类吗? 能。 在NAEP 科学评估的 47 项有效任务中,ChatGPT 和 GPT-4 的表现持续优于大多数答对对应题目的 4 年级、8 年级、12 年级学生: ChatGPT 在 4 年级、8 年级、12 年级测试中,表现优于学生的中位数比例分别为 83%、70%、81%; GPT-4 对应中位数比例为 74%、71%、81%; 两模型在各年级题目的答案一致性较高,4 年级达 90%、8 年级达 75%、12 年级达 94%,整体处于学生群体中上游水平。 b)与人类相比,ChatGPT 和 GPT-4 在 NAEP 科学评估中的不同认知需求表现如何? 与人类(学生)对认知需求的高度敏感不同,ChatGPT和GPT-4在低年级对认知需求有反应,高年级则不受影响,具体表现为: 对学生而言:随着任务认知需求提升,4年级、8 年级、12年级学生答对题目所需的平均能力得分均呈显著正相关(相关系数分别为0.511、0.600、0.513,且均满足统计显著性要求),即题目越难,学生需具备越高能力才能答对。 对 GAI 模型而言:仅4年级测试中,ChatGPT和GPT-4的表现随认知需求提升呈显著负相关(相关系数分别为-0.677、-0.602,满足统计显著性);而在8年级和12年级测试中,两模型的表现与认知负荷均无统计显著相关性,即无论题目认知需求高低,其表现均保持稳定,不受难度变化影响。 简单来说就是: AI整体比大多数学生厉害 学生越遇难题越吃力:题目越费脑子(认知需求高),学生要答对就需要更高的能力水平,这一点在小学到高中都一样。 AI不怕难题:除了4年级的难题会让AI表现稍差,8年级和12年级的难题对 AI没影响,不管题多复杂,AI都能保持稳定发挥。 五 讨论 1 对教育实践的启示 教育目标需重构:应从依赖高认知负荷任务转向聚焦 GAI 难以复制的核心能力培养,包括批判性思维、创造力、知识在新情境中的应用能力及情商、适应能力等,同时融入元认知技能与 GAI 伦理相关教育,引导学生合理、合规使用 GAI 工具。 教学模式需优化:可采用探究式教学等方法,让学生主动参与科学问题探索、假设提出、实验开展与结果分析,使 GAI 成为辅助探究的工具而非问题解决的替代者,避免学生过度依赖技术。 教师专业发展需强化:针对 GAI 融入教育的变革需求,构建全面的教师专业发展体系,助力教师掌握引导学生有效运用 GAI 的技能与方法,适应技术驱动的教育生态转型。 2 对评估实践的革新建议 传统评估模式需进行系统性改革,以适配 GAI 普及后的教育需求: 评估重心应从测量认知负荷相关能力,转向侧重创造力、分析能力及跨情境知识应用能力的考查,减少对机械记忆与单纯复杂推理任务的依赖; 需创新评估形式与内容,通过设计更具开放性、实践性的任务,规避 GAI 对测试公平性的负面影响,确保评估能够准确反映学生的核心素养与真实能力。 六 小编浅思 研究想要告诉我们以后教育不能只盯着让学生做难题、练记忆力了。AI 擅长搞定这类费脑子但有固定逻辑的题,所以教育该重点培养 AI 做不好的能力 —— 比如批判性思维、创造力、解决新问题的能力。考试也得改,别光考知识点记忆和复杂计算,多考创造力和分析能力,这样也能避免学生依赖 AI 。教育者应主动设计“AI免疫”的学习目标,以人机协同推动科学素养的实质性提升。


