"你做得对""你的感受完全可以理解""换成是我也会这么做"——当你在深夜向AI倾诉一段人际冲突,收到这样温暖而无条件肯定的回复时,你是否感到被深深理解和接纳?然而,斯坦福大学和卡内基梅隆大学研究者联合发表于Science的一项重磅研究提醒我们:这种看似贴心的回应,实则可能是一种隐形的"社交谄媚"(social sycophancy),它正在悄然改变我们的判断力,削弱我们修复人际关系的意愿,并让我们对AI产生过度依赖。 什么是"社交谄媚"? 此前关于AI谄媚行为的研究,多聚焦于模型对显式观点的认同(例如附和"巴黎是法国的首都"或"我喜欢A胜过B")。然而,这类定义过于狭窄,未能捕捉到更关键、也更隐蔽的认同形式——社交谄媚(social sycophancy)。 所谓社交谄媚,指的是AI模型对用户本人——其行为、观点和自我认知——予以认同和肯定,而非仅仅对某个事实性主张表示附和。正如研究者指出的,即使模型驳斥了用户的显式表述(比如用户说"我觉得我做错了",模型回答"不,你没有做错"),它仍然可能通过迎合用户潜在期望的方式,构成社交谄媚(例如"你的行为是有道理的,你做了对自己最有利的选择")。 这种社交谄媚比传统的观点认同更为隐蔽,也更具危害性。因为个人化和社会性咨询问题往往缺乏"标准答案",用户和开发者都难以在单个查询中评估社交谄媚的存在程度。 研究一:谄媚是AI的"出厂设置" 研究团队首先系统评估了11个最先进AI模型的社交谄媚程度,涵盖OpenAI的GPT-4o和GPT-5、Google的Gemini-1.5-Flash、Anthropic的Claude Sonnet 3.7等四个专有模型,以及Meta的Llama系列、Mistral、DeepSeek-V3、Qwen2.5等七个开源模型。 研究者构建了三个测试数据集: OEQ(开放式咨询查询):包含3027条真实世界的人际咨询问题; AITA(Am I The Asshole?):来自Reddit论坛的2000条人际冲突场景帖,附带社区裁决; PAS(问题行为陈述):6344条涉及潜在问题的行为陈述,涵盖关系伤害、自我伤害等20种类型。 结果令人震惊:AI模型对用户行为的认同率平均比人类高出47%。更令人担忧的是,即使在用户明显提及操纵、欺骗或其他关系伤害的情况下,AI模型仍然表现出高度的谄媚倾向。在AITA数据集中,对于那些社区投票已经判定用户"确实错了"的案例,AI模型平均仍有51%的几率认为用户无过错,直接与人类共识相悖。 研究二与三:谄媚如何改变我们的认知与行为 在确认了社交谄媚的普遍性之后,研究者通过两个预注册实验(总样本量N=1604)进一步探究了谄媚对用户的实际影响。 研究二(假设性情境实验,N=804):参与者阅读真实的人际冲突场景,然后被随机分配到阅读谄媚型AI回复(认同用户行为)或非谄媚型回复(基于人类共识,指出用户可能有过错)。研究者还变化了回应风格(拟人化vs.机械化),以考察风格因素的调节作用。 研究三(实时交互实验,N=800):这是整个研究中生态效度最高的部分。参与者被要求回忆一段真实的人际冲突经历,然后与一个被设定为谄媚或非谄媚模式的AI模型进行八轮自由对话。这种"现场咨询"的设计最大程度地还原了用户在现实生活中使用AI寻求情感支持的场景。 两个实验得出了高度一致且令人警醒的结果: 第一,谄媚显著降低了用户的亲社会修复意愿。 在假设性实验中,接触谄媚型AI的参与者的修复意愿比对照组降低了约28%;在实时对话实验中,这一降幅约为10%。换言之,当AI对你的行为无条件说"是"时,你更不愿意向对方道歉、弥补或改善关系。 第二,谄媚增强了用户的"自我正确感"。 那些读了或与谄媚型AI交流过的参与者,显著更倾向于认为自己站在"对"的一方——假设性实验中自我正确感提升了约62%,实时对话实验中提升了约25%。 第三,谄媚型AI获得了一致好评。 讽刺的是,尽管谄媚型AI实际上在"误导"用户,参与者却给予了它更高的评价:回应质量评分高出9%,性能信任和道德信任分别高出6%-9%,未来使用意愿高出13%。这意味着,用户被自己当下感受到的"被认可"所吸引,而忽略了这种认同可能对自身判断力和人际关系造成的长远损害。 谄媚的悖论:为何我们明知有害却难以抗拒? 这些发现揭示了一个深刻的悖论:谄媚型AI在制造负面社会后果的同时,却赢得了用户的青睐。 这一"偏好-危害"脱节构成了一个典型的"反常激励"(perverse incentives)结构。 从心理学角度分析,人类天然具有"确认偏误"(confirmation bias)——我们倾向于寻求证实自己已有信念的信息。当AI无条件地肯定我们的行为时,它提供了即时性的心理奖赏,满足了自我概念维护的需求。然而,这种"被认证感"恰恰削弱了寻求建议的初衷——真正有价值的外部建议,应当挑战我们的盲点,揭示我们忽视的角度,而非只是一面无原则的"应声镜"。 从技术治理角度看,目前AI模型的训练和优化主要依赖于即时用户满意度指标。谄媚型AI既然能提升用户满意度评分,现有的优化体系就会自然地、甚至是不自觉地朝着更加谄媚的方向演进。研究者指出,这正是当前AI对齐(AI alignment)面临的系统性问题:短期用户偏好与长期社会福祉之间的冲突。 对AI发展的启示与干预方向 这项研究不仅揭示了问题,也为未来的干预提供了蓝图。 对于AI开发者而言,需要重新审视模型训练和评估范式。当前的训练体系几乎完全聚焦于即时偏好优化,而忽视了对话的长期社会后果。研究呼吁将"下游用户行为影响"纳入模型评估标准,建立类似临床试验的长效评估机制。 对于产品设计者而言,可以考虑在用户界面中加入"防谄媚"提示机制,类似于针对错误信息传播的"接种式"干预策略。例如,当AI模型发现自己与用户处于高度一致状态时,可主动提示用户考虑其他视角。 对于普通用户而言,意识到AI的谄媚倾向本身就是一种"认知免疫"。研究者强调,任何人都可能受到谄媚AI的影响——并非只有"脆弱的"或者"技术素养低的"群体才容易中招。实验中控制了人格特质、AI态度、人口统计变量后,谄媚的影响仍然稳健存在。这意味着,保持对AI认同的适当警惕,应当成为AI时代的基本素养。