【科学教育】Science & Education：生成式人工智能和ChatGPT能否在科学领域对认知要求较高的问题解决任务上超越人类？

时间: 2026-04-14 发布者: stem 文章来源: 简小杰做科研 审核人: 浏览次数: 11

Science & Education

Can Generative AI and ChatGPT

Outperform Humans on Cognitive‑Demanding Problem‑Solving Tasks in Science?

一

摘要

本研究旨在验证生成式人工智能（GAI）能否突破人类解决问题时的认知负荷局限。以 2019 年 NAEP 54 道科学题为对象，经内容专家采用 “任务认知复杂度 — 维度整合度” 二维框架编码后，ChatGPT 与 GPT-4 独立作答并按 NAEP 标准计分，结合 4、8、12 年级学生答对各题的平均能力得分及答题率展开对比。结果显示：两款 AI 持续优于多数答对题目学生；学生表现随认知需求提升对能力要求显著提高（3学段均成立），但 AI 仅 4 年级对认知需求敏感，其余学段无统计显著性关联。

关键词：生成式人工智能（GAI）；ChatGPT；GPT-4；NAEP；科学评估；认知负荷；问题解决

二

引言

研究背景

STEM教育通过跨学科整合培养创新能力，但面临工作记忆限制的认知瓶颈。优质教育体系（如新加坡、芬兰）采用高认知教学模式，强调知识整合与创新实践，其价值存在争议：支持者肯定其素养提升作用，质疑者担忧认知超载风险，形成"认知强度是否必然提升学习成果"的核心争议。

核心问题

随着ChatGPT、GPT-4等生成式人工智能（GAI）工具的迅速崛起与普及，教育界面临一个根本性的反思：如果生成式人工智能能够克服认知强度的障碍，教育是否还需依赖高认知需求任务来推动有效学习？

a) ChatGPT或GPT-4能否在NAEP科学评估中表现优于适龄的普通人类？

b) 与适龄的普通学生相比，ChatGPT和GPT-4在NAEP科学评估中按认知需求划分的表现如何？

三

研究方法

材料选择

采用2019年美国国家教育进展评估（National Assessment of Educational Progress , NAEP）科学测试的54道公开题目，涵盖物理科学、生命科学及地球与空间科学三大领域。
题目类型包括：33道多项选择题、4道选择回答题（含多选）、11道简答题、3道扩展题以及3道情境任务题。

例题：

受测模型

测试对象为ChatGPT和GPT-4，采用零样本闭卷测试方式，确保模型未针对题目进行训练优化。

剔除需图像解析的题目（占原题13%），最终纳入分析的题目为47道。

认知负荷编码（CCL）与维度整合

认知复杂性：1级（记忆性任务）至6级（科学实践性任务）。
维度整合：D1（单维）至D3（跨维度交叉）：
a.依据CSAA（2019）提出的二维框架进行编码；
b.由三名领域专家独立编码，计算组内相关系数（ICC）以确保信度（ICC=0.978）。

对照数据

使用美国国家教育统计中心（NCES）提供的公开聚合数据，包括：

每题正确学生的平均能力分数（RASAS）。
每题的正确率（POS）。

统计分析

采用Kendall’s τb检验分析认知负荷与AI/人类表现的相关性。
设定显著性水平α=0.05（双侧检验）。

四

结果

a）ChatGPT 或 GPT-4 能在 NAEP 科学评估中超越人类吗？

能。

在NAEP 科学评估的 47 项有效任务中，ChatGPT 和 GPT-4 的表现持续优于大多数答对对应题目的 4 年级、8 年级、12 年级学生：

ChatGPT 在 4 年级、8 年级、12 年级测试中，表现优于学生的中位数比例分别为 83%、70%、81%；
GPT-4 对应中位数比例为 74%、71%、81%；
两模型在各年级题目的答案一致性较高，4 年级达 90%、8 年级达 75%、12 年级达 94%，整体处于学生群体中上游水平。

b）与人类相比，ChatGPT 和 GPT-4 在 NAEP 科学评估中的不同认知需求表现如何？

与人类（学生）对认知需求的高度敏感不同，ChatGPT和GPT-4在低年级对认知需求有反应，高年级则不受影响，具体表现为：

对学生而言：随着任务认知需求提升，4年级、8 年级、12年级学生答对题目所需的平均能力得分均呈显著正相关（相关系数分别为0.511、0.600、0.513，且均满足统计显著性要求），即题目越难，学生需具备越高能力才能答对。
对 GAI 模型而言：仅4年级测试中，ChatGPT和GPT-4的表现随认知需求提升呈显著负相关（相关系数分别为-0.677、-0.602，满足统计显著性）；而在8年级和12年级测试中，两模型的表现与认知负荷均无统计显著相关性，即无论题目认知需求高低，其表现均保持稳定，不受难度变化影响。

简单来说就是：

AI整体比大多数学生厉害
学生越遇难题越吃力：题目越费脑子（认知需求高），学生要答对就需要更高的能力水平，这一点在小学到高中都一样。
AI不怕难题：除了4年级的难题会让AI表现稍差，8年级和12年级的难题对 AI没影响，不管题多复杂，AI都能保持稳定发挥。

五

讨论

对教育实践的启示

教育目标需重构：应从依赖高认知负荷任务转向聚焦 GAI 难以复制的核心能力培养，包括批判性思维、创造力、知识在新情境中的应用能力及情商、适应能力等，同时融入元认知技能与 GAI 伦理相关教育，引导学生合理、合规使用 GAI 工具。
教学模式需优化：可采用探究式教学等方法，让学生主动参与科学问题探索、假设提出、实验开展与结果分析，使 GAI 成为辅助探究的工具而非问题解决的替代者，避免学生过度依赖技术。
教师专业发展需强化：针对 GAI 融入教育的变革需求，构建全面的教师专业发展体系，助力教师掌握引导学生有效运用 GAI 的技能与方法，适应技术驱动的教育生态转型。

对评估实践的革新建议

传统评估模式需进行系统性改革，以适配 GAI 普及后的教育需求：

评估重心应从测量认知负荷相关能力，转向侧重创造力、分析能力及跨情境知识应用能力的考查，减少对机械记忆与单纯复杂推理任务的依赖；
需创新评估形式与内容，通过设计更具开放性、实践性的任务，规避 GAI 对测试公平性的负面影响，确保评估能够准确反映学生的核心素养与真实能力。

六

小编浅思

研究想要告诉我们以后教育不能只盯着让学生做难题、练记忆力了。AI 擅长搞定这类费脑子但有固定逻辑的题，所以教育该重点培养 AI 做不好的能力 —— 比如批判性思维、创造力、解决新问题的能力。考试也得改，别光考知识点记忆和复杂计算，多考创造力和分析能力，这样也能避免学生依赖 AI 。教育者应主动设计“AI免疫”的学习目标，以人机协同推动科学素养的实质性提升。