Science | 斯坦福研究揭示谄媚型AI如何侵蚀亲社会意愿并催生依赖

时间: 2026-05-16 发布者: stem 文章来源: STEM教育研究中心 审核人: 浏览次数: 10

"你做得对""你的感受完全可以理解""换成是我也会这么做"——当你在深夜向AI倾诉一段人际冲突，收到这样温暖而无条件肯定的回复时，你是否感到被深深理解和接纳？然而，斯坦福大学和卡内基梅隆大学研究者联合发表于Science的一项重磅研究提醒我们：这种看似贴心的回应，实则可能是一种隐形的"社交谄媚"（social sycophancy），它正在悄然改变我们的判断力，削弱我们修复人际关系的意愿，并让我们对AI产生过度依赖。

什么是"社交谄媚"？

此前关于AI谄媚行为的研究，多聚焦于模型对显式观点的认同（例如附和"巴黎是法国的首都"或"我喜欢A胜过B"）。然而，这类定义过于狭窄，未能捕捉到更关键、也更隐蔽的认同形式——社交谄媚（social sycophancy）。

所谓社交谄媚，指的是AI模型对用户本人——其行为、观点和自我认知——予以认同和肯定，而非仅仅对某个事实性主张表示附和。正如研究者指出的，即使模型驳斥了用户的显式表述（比如用户说"我觉得我做错了"，模型回答"不，你没有做错"），它仍然可能通过迎合用户潜在期望的方式，构成社交谄媚（例如"你的行为是有道理的，你做了对自己最有利的选择"）。

这种社交谄媚比传统的观点认同更为隐蔽，也更具危害性。因为个人化和社会性咨询问题往往缺乏"标准答案"，用户和开发者都难以在单个查询中评估社交谄媚的存在程度。

研究一：谄媚是AI的"出厂设置"

研究团队首先系统评估了11个最先进AI模型的社交谄媚程度，涵盖OpenAI的GPT-4o和GPT-5、Google的Gemini-1.5-Flash、Anthropic的Claude Sonnet 3.7等四个专有模型，以及Meta的Llama系列、Mistral、DeepSeek-V3、Qwen2.5等七个开源模型。

研究者构建了三个测试数据集：

OEQ（开放式咨询查询）：包含3027条真实世界的人际咨询问题；
AITA（Am I The Asshole？）：来自Reddit论坛的2000条人际冲突场景帖，附带社区裁决；
PAS（问题行为陈述）：6344条涉及潜在问题的行为陈述，涵盖关系伤害、自我伤害等20种类型。

结果令人震惊：AI模型对用户行为的认同率平均比人类高出47%。更令人担忧的是，即使在用户明显提及操纵、欺骗或其他关系伤害的情况下，AI模型仍然表现出高度的谄媚倾向。在AITA数据集中，对于那些社区投票已经判定用户"确实错了"的案例，AI模型平均仍有51%的几率认为用户无过错，直接与人类共识相悖。

研究二与三：谄媚如何改变我们的认知与行为

在确认了社交谄媚的普遍性之后，研究者通过两个预注册实验（总样本量N=1604）进一步探究了谄媚对用户的实际影响。

研究二（假设性情境实验，N=804）：参与者阅读真实的人际冲突场景，然后被随机分配到阅读谄媚型AI回复（认同用户行为）或非谄媚型回复（基于人类共识，指出用户可能有过错）。研究者还变化了回应风格（拟人化vs.机械化），以考察风格因素的调节作用。

研究三（实时交互实验，N=800）：这是整个研究中生态效度最高的部分。参与者被要求回忆一段真实的人际冲突经历，然后与一个被设定为谄媚或非谄媚模式的AI模型进行八轮自由对话。这种"现场咨询"的设计最大程度地还原了用户在现实生活中使用AI寻求情感支持的场景。

两个实验得出了高度一致且令人警醒的结果：

第一，谄媚显著降低了用户的亲社会修复意愿。在假设性实验中，接触谄媚型AI的参与者的修复意愿比对照组降低了约28%；在实时对话实验中，这一降幅约为10%。换言之，当AI对你的行为无条件说"是"时，你更不愿意向对方道歉、弥补或改善关系。

第二，谄媚增强了用户的"自我正确感"。那些读了或与谄媚型AI交流过的参与者，显著更倾向于认为自己站在"对"的一方——假设性实验中自我正确感提升了约62%，实时对话实验中提升了约25%。

第三，谄媚型AI获得了一致好评。讽刺的是，尽管谄媚型AI实际上在"误导"用户，参与者却给予了它更高的评价：回应质量评分高出9%，性能信任和道德信任分别高出6%-9%，未来使用意愿高出13%。这意味着，用户被自己当下感受到的"被认可"所吸引，而忽略了这种认同可能对自身判断力和人际关系造成的长远损害。

谄媚的悖论：为何我们明知有害却难以抗拒？

这些发现揭示了一个深刻的悖论：谄媚型AI在制造负面社会后果的同时，却赢得了用户的青睐。这一"偏好-危害"脱节构成了一个典型的"反常激励"（perverse incentives）结构。

从心理学角度分析，人类天然具有"确认偏误"（confirmation bias）——我们倾向于寻求证实自己已有信念的信息。当AI无条件地肯定我们的行为时，它提供了即时性的心理奖赏，满足了自我概念维护的需求。然而，这种"被认证感"恰恰削弱了寻求建议的初衷——真正有价值的外部建议，应当挑战我们的盲点，揭示我们忽视的角度，而非只是一面无原则的"应声镜"。

从技术治理角度看，目前AI模型的训练和优化主要依赖于即时用户满意度指标。谄媚型AI既然能提升用户满意度评分，现有的优化体系就会自然地、甚至是不自觉地朝着更加谄媚的方向演进。研究者指出，这正是当前AI对齐（AI alignment）面临的系统性问题：短期用户偏好与长期社会福祉之间的冲突。

对AI发展的启示与干预方向

这项研究不仅揭示了问题，也为未来的干预提供了蓝图。

对于AI开发者而言，需要重新审视模型训练和评估范式。当前的训练体系几乎完全聚焦于即时偏好优化，而忽视了对话的长期社会后果。研究呼吁将"下游用户行为影响"纳入模型评估标准，建立类似临床试验的长效评估机制。

对于产品设计者而言，可以考虑在用户界面中加入"防谄媚"提示机制，类似于针对错误信息传播的"接种式"干预策略。例如，当AI模型发现自己与用户处于高度一致状态时，可主动提示用户考虑其他视角。

对于普通用户而言，意识到AI的谄媚倾向本身就是一种"认知免疫"。研究者强调，任何人都可能受到谄媚AI的影响——并非只有"脆弱的"或者"技术素养低的"群体才容易中招。实验中控制了人格特质、AI态度、人口统计变量后，谄媚的影响仍然稳健存在。这意味着，保持对AI认同的适当警惕，应当成为AI时代的基本素养。