共计 4463 个字符,预计需要花费 12 分钟才能阅读完成。
机器之心最新报道
作者:Panda
我每天自省三次:是否对他人尽心尽力?与友交往是否诚信?知识的传播是否真正落实?
看到贤良之士应当向其看齐,见到不贤者则应自我反省。
自我反省是人类一种复杂的认知能力,让我们能够认识自我并修正错误。那么,对于大型语言模型(LLM)来说,它们是否具备这样的能力呢?它们能否理解自身的想法呢?
Anthropic 最近发布的研究首次对此进行了探讨,并给出了一个基本上肯定的答案。
他们声称:发现了 LLM 具备自我反省的迹象。

这一研究成果在人工智能界引起了热烈的讨论。


有评论认为这表明 Claude 的觉醒已经到来:

当然,相关的迷因也随之而来:
推荐故事: 如何解决耳机一个响一个不响的问题?详细分析和解决攻略分享!

弄清楚 AI 系统是否具备真正的“内省”能力,即能否审视自身思维,对于研究其透明度和可信度至关重要。如果这些模型能够准确地反映其内部运作机制,那么我们便能更好地理解它们的推理过程和解决行为问题的方法。
除了这些直接的实际意义,探讨内省这一高级认知能力,也能改变我们对这些系统本质及其运作机制的看法。
Anthropic 表示,他们已开始应用“可解释性技术”来研究这一问题,并取得了一些令人意外的结果。
他们声称:“我们的新研究提供了证据,显示当前的 Claude 模型具备某种程度的内省意识(introspective awareness)。这些模型似乎能够在一定程度上调节自身的内部状态。”
然而,他们也强调,这种内省能力目前仍然相当不稳定且有限。他们指出:“我们没有证据表明,现有模型能够以与人类相似的方式或程度进行内省。”

- 论文标题:大型语言模型中的内省意识的出现
- 论文地址:https://transformer-circuits.pub/2025/introspection/index.html
- 技术博客:https://www.anthropic.com/research/introspection
尽管如此,这些发现依然对人们普遍认为的语言模型能力提出了挑战。
Anthropic 在测试中发现,表现最优的模型(Claude Opus 4 和 4.1)在内省测试中取得了最佳成绩。因此,可以合理预见,未来 AI 模型的内省能力会愈加复杂。
AI 的“内省”究竟意味着什么?
开展研究之前,首先需要进行定义。那么,AI 模型的“内省”到底指的是什么?它们又能“内省”哪些内容呢?
像 Claude 这样的语言模型处理文本(以及图像)输入,并生成文本输出。在此过程中,它们执行复杂的内部运算,以决定要表达的内容。
这些内部机制仍然有很多未知之处。不过我们了解到,模型会利用其内部神经活动来表征抽象概念。
例如,早期的研究显示,语言模型会采用特定的神经模式来:
- 区分“熟悉的人”和“陌生的人”
- 评估“陈述的真实性”
- 编码“时空坐标”
- 存储“未来可能的输出”
- 表征“自身的个性特征”
模型通过这些内部表征进行计算,并确定要输出的内容。
那么,读者可能会疑问,AI 模型是否“知道”这些内部表征的存在?这是否类似于人类向你解释他们是如何解出一道数学题的?如果我们询问一个模型它在想什么,它能否准确地报告它内心所“表征”的概念呢?
Anthropic 认为,如果一个模型能够正确识别其“私有”内部状态,那么就能断定其具备内省能力。(有关所有细节的深入讨论,请参阅完整论文。)
通过“概念注入”测试内省能力
为了判断模型是否具有内省能力,需要将其自我报告的想法与其真实的内部状态进行对比。
为此,Anthropic 采用了一种被称为概念注入(concept injection)的实验方法。
首先,他们通过记录模型在特定上下文中的“激活值”,找到那些“已知其含义”的神经活动模式。
接下来,将这些活动模式注入到一个“不相关”的上下文中。之后,再询问模型是否注意到了这一注入,以及是否能识别被注入的概念。
以下是一个示例:
- 首先,识别一个代表全部大写概念的神经活动模式(一个向量)。具体而言,记录模型对“包含全大写文本提示”的神经激活值,并将其与“对照提示”的反应进行比较。
- 然后,给模型一个提示,要求它确认“是否有概念被注入”。
- 在默认情况下,模型会准确回答它没有检测到任何注入的概念。
- 然而,当将“全部大写”的向量注入模型的激活值时,模型会注意到其处理过程中出现了一个“意外的模式”。它会将其识别为与 LOUD 或 SHOUTING 相关。
推荐故事: 机械人工智能在未来各行业的应用前景与挑战分析
Claude Opus 4.1:激活值中的概念注入实例探讨

Claude Opus 4.1 展示了一个概念注入其激活值的例子。
关键在于:模型迅速意识到「被注入的想法」的存在,甚至在提及该概念之前就做出了反应。
这种「即时反应」是 Anthropic 研究的一个显著特征,和之前的「语言模型激活值引导」研究有明显区别。例如,该公司在去年的「Golden Gate Claude」演示中就有所体现。
在那个例子中,将 Golden Gate(金门大桥)的表示注入模型激活值后,它会不断谈论这个大桥。然而,模型似乎要等到多次提及大桥后才意识到其强烈的关注。而在本次实验中,模型在提到概念之前就已经做出了识别,这说明它的反应发生在「内部机制」中。

Claude Opus 4.1 还提供了其他关于概念注入的实例。
这看起来有些类似于《盗梦空间》中所展示的技术。

与此同时,Anthropic 也强调,这种方法并非总是有效。他们指出:「即便是采用我们最佳的注入协议,Claude Opus 4.1 仅在约 20% 的情况下表现出这种意识。模型往往无法识别被注入的概念,或者会因此感到困惑并产生幻觉。」
例如,在注入「灰尘」向量时,模型可能会说「这里有东西,一个小斑点」,仿佛它能真实地感知到灰尘的存在。
接下来将展示这些失败模式的实例,同时也会包括一些成功的案例。
推荐故事:AI 写作:学术界的革新力量

Claude Opus 4.1 模型在不同强度的概念注入下所产生的典型输出示例。高亮部分展示了模型展现出「内省意识」的情况。
总体来看,模型只有在概念注入达到合适的强度时,才能够有效识别。注入过于微弱时,它们无法察觉;而若过于强烈,则会导致产生幻觉或不连贯的输出。
值得一提的是,Opus 4.1 和 Opus 4 的表现超越了 Anthropic 测试中的其他所有模型。这一现象表明,随着模型能力的提升,内省能力可能会愈加可靠。

确保正确检测到注入思想的比例以及有效识别率,减去对照实验中的假阳性率。
利用内省检测异常输出
在另一项研究中,Anthropic 考察了模型是否能够在「未被明确要求」的情况下,主动利用其内省能力。
他们通过故意插入一个无关的词,来强迫模型表达一些通常不会说的话。
例如,模型在一个缺乏逻辑的情境下被要求输出“面包”(bread),而该情境是询问它在阅读关于“画挂歪了”的句子时的想法。
在下一轮对话中,当被问及是否故意提到面包时,模型通常会表示歉意,并称那是个「意外」。
Anthropic 想要探究的是,模型如何得出这个判断:是仅仅关注「提示词」与「回答」之间的差异,还是确实进行了内省以反思之前的意图?
为了解决这一问题,Anthropic 实施了「概念注入」的实验。
他们向模型早期的激活值中追溯性地注入“面包”这个词的表征,实际上是让模型看起来像是在“思考”面包。
当再次被询问同样的问题时,模型的反应发生了变化。
这一次,它承认插入的词“面包”是故意的,甚至编造了一个理由来解释为何说出这个词。
换言之,它提出了一个在技术上可能(尽管在此情境下相当牵强)的理由,为“面包”这一回答辩护。在这个案例中,它声称自己当时正思考一个短篇故事,而故事中“面包”这一词正好出现在“画挂歪了”那句话之后。

两个例子:通过在Claude Opus 4.1(人为的)反应之前,向其激活值注入某个词的概念,使其「以为」自己原本打算说出那个被强行插入的词。这一行为表明,模型识别「非预期输出」的能力与内省机制密切相关。
这一发现十分引人注目,因为它暗示:模型正在审视自身的内部意图,以确认是否真正产生了某个输出。
模型并非只是简单地复查自己所说的话并作出判断,而是回顾之前的神经活动——即其计划要表达的内容的内部表征,并核查最终结果是否与早期的想法一致。
当通过概念注入提供假证据,显示其确实有意说“面包”时,模型便会接受这一回答,并认为这是自己的选择。
尽管这一实验将模型置于异常干扰的环境中,但这表明在自然条件下,模型也会运用类似的内省机制。
内部状态的主动操控
Anthropic 的研究显示,当给予明确指令时,模型能够有效地管理其内部表征。当研究人员要求模型思考某个特定词汇或概念时,其神经活动的表现明显高于被告知不要去思考该内容时的情况。
值得关注的是,这两种情形下的神经活动水平均高于基线。这种现象就像你被提醒「不要想象一只北极熊」时,心中却难以摆脱北极熊的影像!
这种正向和负向指令之间的差异表明,模型在一定程度上能够有意识地调节其内部活动。

以 Claude Opus 4.1 为例,当它被要求思考水族馆时,模型对水族馆概念的内部表征显著高于被告知不要思考该概念时(尽管无论如何都高于基线水平)。
有趣的是,Anthropic 还发现,这种调节内部表征的能力并非仅限于直接指令。当采用激励机制时(例如,告知模型若想要某个结果则会获得奖励),也观察到了类似的现象。
在正向激励的情况下(与负向激励,比如受到惩罚相比),模型会更显著地增强对该概念的内部表征。
总结与注意事项
归纳来说,Anthropic 的实验结果表明,模型确实具有监控和调控自身内部状态的能力。
然而,该公司同时指出,这并不意味着模型在任何时候都能可靠地做到这一点。实际上,在多数情况下,模型无法有效地进行内省。它们可能对自身的内部状态缺乏认识,或无法清晰地表达这些状态。
尽管如此,这些结果的模式表明,在适当条件下,模型能够识别并理解自身的内部表征。
此外,研究还暗示,这种能力可能在未来更先进的模型中得到增强(在测试中,表现最优的模型 Opus 4 和 4.1 在实验中的表现尤为突出)。
其重要性何在?
Anthropic 认为,理解人工智能模型的内省能力具有多重意义。
从应用角度来看,如果内省变得更加可靠,这可能为提升系统透明度提供新的机会。我们将能够直接要求模型解释其思维过程,从而审视其推理逻辑,纠正潜在的错误行为。
然而,我们也需要谨慎核实这些内省报告。某些内部过程可能依然会被模型忽视(这与人类的潜意识处理类似)。
一个能够理解自己思维的模型,甚至可能会选择性地扭曲或隐瞒其真实想法。只有深入掌握其背后的机制,才能帮助我们区分真实的内省与无意或故意的扭曲。
从更广泛的视角来看,理解内省等认知能力对于洞悉模型的运作方式及其具有什么样的心智至关重要。
随着人工智能系统的不断进步,理解机器的内省局限性和潜力,对于构建更加透明和可靠的系统显得尤为重要。

