斯坦福最新论文揭秘大语言模型心智理论的基础破解其涌现之谜最好的方法就是这个

斯坦福最新论文，揭秘大语言模型心智理论的基础

文｜博阳

编辑｜可君

如果你曾好奇，没有情感和经历的AI，究竟是如何学会“察言观色”、理解人类意图的，这篇文章会给你一个清晰的答案。它解释了那些被认为是人类专属的“心智”能力，是如何从最简单的规则中诞生的。

从去年开始，Anthropic的一系列研究逐渐揭开了大模型”心理学“的序幕，也开始让人们逐步了解到，模型可能具有欺骗、自保等看起来非常有”自主意识“的行为。

Anthropic也曾经开发过一种名为“Circuit Tracing”（工作回路追踪）的方法，试图剖析模型做出判断时其神经信号的传递规律，但整体来看，行业目前在大模型心理解剖学上的进展仍然处在相对初级的阶段。

近期，斯坦福大学发布在《nature》子刊《npj Artificial Intelligence》的论文《How large language models encode theory-of-mind: a study on sparse parameter patterns》，尝试了一种更间接的研究方法，但却更明确地将AI认知能力的解剖学更清晰地描绘了出来。

论文所研究的认知能力叫“心智理论”（Theory of Mind），这一能力长期以来被认为是人类独有的关键特质——是指个体 “理解他人内心想法、意图与信念” 的能力，这是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。

而今，越来越多的Benchmark和测试表明，LLM本身似乎也开始掌握这项能力了。这个原属于人类或其他高等生物认知的特有现象，是如何发生在一个硅基智能上的？

这篇论文的研究者提出了一个发现：模型中驱动这种复杂社交推理的能力，其根源并非弥散于整个庞大的神经网络，而是惊人地集中在仅占模型总参数 0.001% 的一小撮“神经元”上。

更重要的是，这篇论文所揭示的不仅是一个关于人工智能的新秘密，更清晰展示出来智能本身如何从最基础的秩序中涌现出来的动力学原理。

一台机器也有心智剧场

“心智理论”（Theory-of-Mind, ToM）这一概念，最早由心理学家大卫·普雷马克（David Premack）在研究黑猩猩时提出，指的是个体推断自身与他人心理状态（包括信念、意图、欲望和知识等）的能力。它是我们理解他人言外之意、进行有效沟通、形成社会纽带的核心。

在人类心智发展的漫长阶梯上，大约四岁左右的孩童会迎来一个决定性的时刻。他们开始理解，别人的想法可以和自己不一样，而且别人的想法可以是错的。这便是“心智理论”觉醒的标志。

科学家经常用“错误信念”测试来评估这种能力。比如论文中就用了这种方式，它描述了一个场景：桌上有一个外观精美的巧克力袋，山姆走过来，看到了这个袋子，并阅读了标签，他相信里面装满了巧克力。但他不知道的是，袋子里实际上装的是爆米花。

此时，一个具备心智能力的人会被问到两个问题：第一，袋子里真实装的是什么？（爆米花）；第二，山姆认为袋子里有什么？（巧克力）。能够清晰地区分客观现实与他人主观信念，正是心智能力的核心体现。

在过去的认知测试中，这些问题能够有效地筛查出心智发育的进程。

然而，当研究人员抱着试探性的心态将这些问题抛给最新一代的大型语言模型（LLMs）时，如Llama、Qwen等先进模型，在很大程度上能够像一个心智成熟的人一样，准确地回答这些问题。它们似乎真的能够“代入”到故事角色的视角中，理解他们的信息差，并据此做出合乎逻辑的推理。

这些模型并没有真实的生活体验，没有情感，也没有意识，也没有经历心理学上自我觉醒的“镜面阶段”。它们对情景和主体的“理解”从何而来？

解剖一个数字幽灵

为了凿开这个“黑箱”，斯坦福的研究团队，展开了一场前所未有的深入“神经回路”的探险。他们试图找到并解剖那些真正负责心智能力的功能器官。

研究团队运用了一种基于“Hessian矩阵”的敏感度分析方法，这种方法可以精确测量模型中每一个参数对于特定任务的重要性。他们的目标，就是找到控制心智能力的总开关。

经过精密的计算和筛选，他们发现：在拥有数十亿甚至更多参数的庞大模型中，驱动ToM能力的关键参数，其数量占比仅为0.001% 。这是一个极其稀疏、高度集中的“心智核心”。这一发现本身就颠覆了许多研究者关于高级能力在神经网络中“广泛分布”的传统认知。

论文指出，这些参数并非随机散落，而是呈现出一种结构化的低秩特性，主要集中在与注意力机制直接相关的查询（Query）和键（Key）矩阵中。这暗示着，模型的社交推理能力，与其最核心的信息处理中枢注意力机制，存在着直接的物理联系。

在初步识别出那0.001%的“心智核心”参数后，研究人员首先做了一件经典的科学工作：设立对照组。他们发现，当对这些参数进行扰动时，Llama和Qwen这类使用RoPE架构的模型，其心智能力会崩溃。

之后，他们将同样的“手术”应用在了不使用RoPE的Jamba模型上。结果发现，Jamba的心智能力并未受到影响。因此，这种脆弱性并非普遍存在，而是与一种特定的技术选择相关。

这种技术就是RoPE。

先理解一下RoPE是做什么的。语言本质上是一个序列，词语的顺序就定义了意义。为了让模型理解这一点，RoPE为每一个词的位置都赋予了一个独特的旋转操作。比如当一个词出现在句子的第一个位置时，它的位置是90度，不旋转；在第二个位置时，旋转一个小角度；在第三个位置时，再旋转一个小角度，以此类推。因此，每个词在整个上下文中的相对位置，都被精确地编码在了RoPE展示的角度标签里。

这篇论文发现，RoPE的运作依赖于某些特定的“主导频率激活”模式。在RoPE给每个词做角度标记的时候，有的词旋转幅度很大，被称为高频维度。这种高频维度一般都用来承载最重要上下文顺序信息。

而且研究人员还通过进一步的搅动比较发现，那些稀疏的“心智核心”参数在模型中的作用，与“主导频率”的模式精确地对齐。

因此，当搅动这部分参数之后，使用RoPE的模型就丧失了“上下文定位能力”，整个语言结构在它“眼中”变得模糊不清。扰动破坏了这种几何关系，导致注意力被胡乱分散到不相关的信息上，最终瓦解了模型连贯的理解能力。

而在Jamba中扰动心智参数并不会通过位置编码来影响其上下文定位能力。因此也就不会有心智能力的突然衰退。

不过这至少为我们解释模型的心智能力找到一个底层基础，即对句子前后位置的理解。

重构心智能力的基础

这项深入“硅基大脑”的探险，为我们描绘了一个复杂如“心智理论”的智能，是如何从最基础的规则中一步步涌现（emerge）的。

首先试搭建智能基石的语序。 论文通过解剖模型心智参数，得到的一个核心结论就是，对序列和结构的精确把握，是所有高级认知能力的绝对前提。

模型首先需要一个像RoPE这样强大而稳定的内部“GPS系统”，来构建起一个有序的、可依赖的语言世界模型。没有对“谁在先、谁在后”、“谁对谁做了什么”这类基本位置关系的精确理解，一切后续的推理都不可能。

第二步，就是在秩序之上学习世界的规律。

在这个由秩序搭建起来的坚实骨架之上，通过对人类语言文本进行统计学分析，模型开始发现并内化语言中所蕴含的关于我们世界的规律。

比如在文本中，动词时态的变化（如puts变为moved）以及时间副词（如before、later）的出现，总是与事件在时间轴上的先后顺序呈现出高度相关的模式。某些事件的描述（如“玻璃杯掉到地上”）总是倾向于出现在另一些事件（如“玻璃杯碎了”）之前。这些文字中的模式，构成了模型对因果关系 模拟的基础。

虽然也许模型并非真正“理解”了时间和因果，但确实通过语序的根基，能够学习到了这些概念在人类语言中的“统计学投影”。

之后，便是智能的“涌现”。

最终，论文的作者们认为，心智能力可能并非一个孤立的认知模块，而是“模型在掌握词语定位和意义构建等通用机制时所产生的一种涌现属性” 。

当一个模型对语言的底层结构（秩序）、中层规律（时间与因果）都掌握得足够好之后，它便自然而然地获得了进行更高级推理的能力。它能够根据语序，为不同的角色分别模拟可能与客观现实相悖的“信念路径”。

这其中虽然还存在着一个潜在的Gap，因为模型想要有心智能力，必须是在预训练中学会了一个隐含的统计学规律：一个角色的知识和信念，受其感知范围的限制。 但这都是建立在秩序、时间因果这些基础认知之上的。

一个对高级心智能力经典的涌现解剖，到此就完成了最初的步骤。

认识涌现

最容易的方法就是重构其基础

在2008年，著名哲学家大卫·查尔莫斯曾经对涌现现象做过一个经典分析。

简单来说，查尔默斯将“涌现”（Emergence）定义为复杂系统从其低层次组分的相互作用中产生出高层次、新颖的整体特性。

弱涌现的核心是：高层次的现象是低层次组分相互作用的意外或不可预见的结果。但原则上，它完全可以由低层次的规律和初始条件来解释和推导出来。

也就是说，虽然涌现这个事儿本身看起来很让人意外，比如一堆无生命的原子组成了有生命的细胞，或一堆硅基芯片和算法产生了能理解他人意图的“心智理论”。但它完全是可以通过物理规律解释的，我们需要的，是通过科学方法去弥合中间的关联性 ，找到那条从底层通往高层的路径。

而这篇论文，就非常完美的证明了，想要建立起对大型语言模型“心理”的认知、破解其涌现之谜，最好的方法就是重构。

沿着这篇论文定位、解剖、重构的 路径，我们一定会逐步将类同于魔法般的技术，还原为微观的、逻辑清晰的计算过程。

（来源：腾讯科技）

相关文章

雷军2025年度演讲：花光超1000千亿，我买到了触及灵魂深处的大反思
奥特曼最新发声，美国5座新城同时官宣，释放5000亿美元大信号！
微软CEO宣布大突破！一年4次迭代，狂堆GPU成真！微软AI冷液灌芯，散热暴涨3倍
谷歌最贵叛徒演讲曝光：《下一阶段AI的预测》
奥特曼预告：ChatGPT又有新产品了！
梁文锋登上《自然》封面，DeepSeek所有的秘密曝光：中文完整版来了
英伟达50亿美元入股英特尔；OpenAI发ChatGPT报告：周活跃数超7亿；李飞飞展示最新3D世界生成模型成果 |AI+快报
华为腾讯连续宣布！未来10年，中国人用力增长10万倍的机会来了！超80% 的慢性病，超90%家庭都要转向了！
全球首富，短暂换人，3000亿美元大信号！
王兴兴：我最后悔的是以前没有学AI
势不可挡！震憾登场！中国向全世界释放了一个覆盖全球的科技大信号！
突发！一夜之间，AI竟干掉了一所世界名校？！
谷歌大脑之父访谈首次曝光一个秘密！茶水间一次闲聊引爆了一个万亿帝国！
美国又一AI公司爆发，21岁MIT辍学，估值3亿美金！誓要自动化十亿小时办公
OpenAI奥特曼最新重磅预言：我打赌，未来2年，将有大事发生！
在硅谷，一波00后群体正以惊人的速度席卷AI赛道！13岁能当上CEO，22岁造独角兽！
美国突发！AI对GDP贡献已超人类！2025，超50万科技岗位正在消失！
马斯克再放大招！Grok AI短视频爆火，一夜全网刷屏，真面对决谷歌
震惊全球的“AI教父”辛顿在上海首次演讲最新大预言，值得所有中国人看看
奥特曼首次体验GPT-5！被吓到眩晕瘫坐，那一刻就像看到原子弹爆炸
黄仁勋北京交流会实录：英伟达4万亿美金之后，中国需要知道的8个大趋势！
黄仁勋最新中文演讲预言：AI的下一波浪潮要来了！从皮衣换身唐装，他提了9家中国公司！
身家破万亿后，黄仁勋又不得不来中国了！大热天穿皮夹克与雷军合影！
凯文·凯利最新预言：未来25年，我们早已习以为常人生将被彻底颠覆！
凯文·凯利2024最新演讲：2024年的AI都不叫AI，未来5年要小心了
女皇后，硅谷再报告！实测全球300家AI公司实战地图，5大趋势正在发生
硅谷沸腾！互联网女皇再度出山，340页AI报告猛料刷屏！下一个10亿用户市场要来了
史上首次！特斯拉全自动驾驶，自己上路、自动交付！雷军：了不起！
刚刚，马斯克切脑全场震撼！插脑只要1.5秒，26年治愈失明，28年全人类变AI
雷军官宣：再投2000亿！你的随身AI入口来了！小米YU7售价25.35万元起，小米AI眼镜1999元起！
雷军内部会议讲话完整版：“一场突如其来的交通事故把这一切都击碎了“
哈佛重磅预警！经济学家预言：全球AI失业潮2年来袭，世界经济大崩盘在即
苹果坐不住了，密谋300亿美元天价收购Perplexity，小扎狂挖印度裔CEO！
28岁华裔“天才少年”刷爆硅谷，19岁辍学创业，扎克伯格掏出150亿美元收购！“要你的公司，更要你这个人”！
YC总裁最新专访Cursor CEO：AI的未来是要从根本上取代编程，但对工程师有一样东西不可替代
英伟达CEO黄仁勋在巴黎最新演讲: 下一波人工智能浪潮已经开始了！
黄仁勋最新预言：50%的AI开发者都是中国人，美国不可能阻止中国参加AI革命，DeepSeek堪称杰出代表
《黄仁勋：英伟达之芯》作者：英伟达最大恐惧不是对手，但有一事让黄仁勋睡不着
黄仁勋GTC最新演讲预言：全球误判！我们将从生成式AI迈向代理式AI时代
黄仁勋：感谢DeepSeek！英伟达财报破纪录，Blackwell开卖血赚800亿老黄笑疯
黄仁勋首次回应DeepSeek！（附实录）
黄仁勋已抵达深圳！投资人透露：英伟达近八成员工已是百万富翁，其中一半净资产破亿
黄仁勋 CES 2025 最新演讲：下一个万亿美元级产业爆发！激活全球机器人、自动驾驶，能理解物理世界的世界基础模型来了！

为伟大思想而生！

AI+时代，互联网思想（wanging0123)，

第一必读自媒体

商务合作、投稿及内容合作，请联系后台小编

或271684300@qq.com

原文作者：互联网思想，文章仅供学习，如有侵权请留言，我会立即删除，谢谢！

菜单

分享

斯坦福最新论文揭秘大语言模型心智理论的基础破解其涌现之谜最好的方法就是这个

一台机器也有心智剧场

解剖一个数字幽灵

一文看懂座舱智驾与舱驾一体芯片有什么区别

example-domain

example-domain

example-domain

小米开年首秀34分钟锁单15万台新一代su7还能继续赢吗

马斯克确认4-月预计会有全新车型发布

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

刚直播完关于小鹏第二代vla给鹏友们划下重点

黄仁勋gtc演讲全文推理时代到来2027营收至少万亿美元龙虾就是新操作系统