新闻中心 >> 公司新闻 >>

AI“黑盒子”被打开了！用AI“显微镜”追踪大模型思维？

2025-03-31 09:30:04

人工智能（AI）模型是训练出来的，而不是直接编程出来的，因此它们就像一个“黑盒子”，我们并不了解它们是如何完成大部分事情的。

了解大语言模型（LLM）是如何思考的，将有助于我们更好地理解它们的能力，同时也有助于我们确保它们正在做我们希望它们做的事情。

例如，AI 可以一步一步地写出它的推理过程。这是否代表它得到答案的实际步骤，还是它有时是在为既定的结论编造一个合理的论据？

今天，大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面迈出了重要一步——他们提出了一种新的可解释性方法，让我们能够追踪 AI 模型（复杂且令人惊讶的）思维。

他们从神经科学领域汲取灵感，并试图构建一种 AI「显微镜」，让我们能够识别 AI 的活动模式和信息的流动。在最新发表的两篇论文中，他们分享了AI「显微(wēi)镜(jìng)」开(kāi)发(fā)上(shàng)的(de)进展以及其在“AI 生物学”中的应用。

在第一篇论文中，他们扩展了之前在模型内部定位可解释的概念（特征）的工作，将那些概念连接成计算“回路”，揭示了将输入 Claude 的词语转化为输出的词语的路径中的部分。

论文链接：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

在第二篇论文中，他们对 Claude 3.5 Haiku 进行了深入研究，对 10 个关键模型行为中的简单任务进行了研究。他们发现，有证据表(biǎo)明(míng) AI 聊(liáo)天(tiān)助(zhù)手(shǒu) Claude 会(huì)提(tí)前(qián)计(jì)划(huà)好(hǎo)要(yào)说(shuō)的(de)话(huà)，并(bìng)通(tōng)过(guò)一(yī)些(xiē)手(shǒu)段(duàn)来(lái)达(dá)到(dào)这(zhè)一(yī)目(mù)的(de)。这(zhè)有(yǒu)力(lì)地(de)证(zhèng)明，尽管模型接受的训练是一次输出一个词，但它们可能会在更长的时间跨度上进行思考。

论文链接：

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Anthropic 团(tuán)队(duì)表(biǎo)示(shì)，这(zhè)些(xiē)发(fā)现(xiàn)代(dài)表(biǎo)着(zhe)人(rén)们(men)在(zài)理(lǐ)解(jiě) AI 系(xì)统(tǒng)并(bìng)确(què)保(bǎo)其(qí)可(kě)靠(kào)性(xìng)的(de)目(mù)标(biāo)取(qǔ)得(de)了(le)重(zhòng)大(dà)进(jìn)展(zhǎn)，同(tóng)时(shí)也(yě)在(zài)其(qí)他领域具有潜在价值：例如，可解释性技术在医学影像和基因组学等领域得到了应用，因为剖析为科学应用训练的模型的内部机制，可以揭示关于科学的新的见解。

当然，这一方法也存在一些局限性。例如。即使在简短的提示下，这一方法也只捕捉到 Claude 所执行的总计算量的一小部分，而他们看到的机制可能基于工具存在的一些偏差，并不反映底层模型的真实情况。

此外，即使是在只有几十个单词的提示下，理解观察到的回路也需要几个小时的人类努力。要扩展到支持模型使用的复杂思维链的数千个单词，还需要进一步改进方法以及（也许在 AI 的帮助下）如何理所观察到的东西。

Claude 是如何实现多语言的？

Claude 可以流利地说几十种语言——英语、法语、中文和菲律宾语。这种多语言能力是如何工作的？是否存在一个独立的“法语 Claude”和“中文 Claude”并行运行，各自以自己的语言响应请求？或者在其内部存在某种跨语言的内核？

图｜英语、法语和汉语都有共同的特征，这表明概念具有一定程度的普遍性。

最近对较小型模型的研究表明，不同语言之间存在共享的语法机制。研究团队通过询问 Claude 在不同语言中“小(xiǎo)对(duì)立面”，发现关于小和相反的概念的核心特征被激活，并触(chù)发(fā)了(le)一(yī)个(gè)大(dà)概(gài)念(niàn)，这(zhè)个(gè)概(gài)念(niàn)被翻译成了问题的语言。他们发现，随着模型规模的增加，共享的回路也增加，与较小模型相比，Claude 3.5 Haiku 在语言之间共享的特征的比例是其两倍多。

这为一种概念上的普遍性提供了额外的证据——一个共享的抽象空间，其中存在意义，思考可以在被翻译(yì)成(chéng)特定语言之前发生。更实际地说，它表明 Claude 可以在一种语言中学习某些东西，并在说另一种语言时应用这些知识。研究模型如何在不同的语境中共享其知识，对于理解其 SOTA 推理能力是非常重(zhòng)要(yào)的(de)，这(zhè)些(xiē)能(néng)力可以泛化到许多领域。

Claude计划它的押韵吗？

Claude 是如何写押韵诗(shī)的(de)？请(qǐng)看(kàn)这(zhè)首(shǒu)小(xiǎo)诗(shī)：

He saw a carrot and had to grab it,

他(tā)看(kàn)到(dào)了(le)一(yī)根(gēn)胡(hú)萝(luó)卜(bo)，要(yào)抓(zhuā)住(zhù)它(tā)，

His hunger was like a starving rabbit

他(tā)的(de)饥(jī)饿(è)就(jiù)像(xiàng)一(yī)只(zhǐ)饿(è)极(jí)了(le)的(de)兔(tù)子(zi)

为(wèi)了(le)写(xiě)出(chū)第(dì)二(èr)行(xíng)，模(mó)型(xíng)必(bì)须(xū)同(tóng)时(shí)满(mǎn)足(zú)两(liǎng)个(gè)约(yuē)束(shù)：需(xū)要(yào)押(yā)韵（与“grab it”押韵），同时需要有意义（为什么抓胡萝卜？）。他们猜测 Claude 是逐字逐句地写作，几乎没有太多的预先思考，直到行尾，它会确保选择一个押韵的词。因此，他们预计会看到一个具有并行路径的回路，一条路径确保最后一个词有意义，另一条路径确保押韵。

相反，他们发现 Claude 会提前规划。在开始第二行之前，它就开始“思考”与“抓住它”押韵的可能相关词汇。然后，带着这些计划，它写出一行在计划中的词来结尾。

图｜Claude 如何完成一首两行诗。在没有任何干预的情况下（上半部分），模型事先规划了第二行末尾的韵脚“兔子”（rabbit）。当研究人员抑制“rabbit”的概念时（中间部分），模型会使用另一个计划好的韵脚。当研究人员注入“绿色”（green）概念时（下半部分），模型就会为这个完全不同的结尾做出计划。

为了理解这种规划机制在实际中的工作原理，他们进行了一项实验，该实验受到神经科学家研究大脑功能方式的启发，即通过定位和改变大脑特定部分的神经活动（例如使用电流或磁场）。他们修改了代表“rabbit”概念的 Claude 内部状态的部分。当他们减去“rabbit”部分，让 Claude 继续写下去时，它写出了以“habit”结尾的新句子，另一个合理的结尾。他们还可以在那个点注入“green”的概念，让 Claude 写出了一个以“green”结尾合理（但不再押韵）的句子。这证明了规划能力和适应性——当预(yù)期(qī)结(jié)果(guǒ)改(gǎi)变(biàn)时(shí)，Claude 可(kě)以(yǐ)修(xiū)改其方法。

心算

Claude 不是被被设计成计算器的——它是基(jī)于(yú)文本进行训练的，没有配备数学算法。然而，它却能在“脑海中”正确地“计算”数字。一个被训练来预测序列中下一个单词的系统是如何学会计算，比如(rú)“36+59”，而不需要写出每个步骤的呢(ne)？

也(yě)许(xǔ)答(dá)案(àn)并(bìng)不(bù)有(yǒu)趣(qù)：模(mó)型(xíng)可(kě)能已经记住了大量的加法表，并简单地输出任何给定总和的答案，因为该答案在其训练数据中。另一种可能是，它遵循我们在学(xué)校(xiào)学(xué)习(xí)的(de)传(chuán)统(tǒng)手(shǒu)写(xiě)加(jiā)法(fǎ)算(suàn)法(fǎ)。

相(xiāng)反(fǎn)，研(yán)究(jiū)团(tuán)队(duì)发(fā)现(xiàn) Claude 采用(yòng)了(le)多(duō)条(tiáo)并(bìng)行(xíng)工(gōng)作(zuò)的(de)计(jì)算(suàn)路径。一(yī)条(tiáo)路径计(jì)算(suàn)答(dá)案(àn)的(de)粗(cū)略(è)近(jìn)似(shì)值(zhí)，另(lìng)一(yī)条(tiáo)则(zé)专(zhuān)注(zhù)于(yú)精(jīng)确(què)确(què)定(dìng)总(zǒng)和(hé)的(de)最(zuì)后(hòu)一(yī)位(wèi)数(shù)字(zì)。这(zhè)些(xiē)路径相(xiāng)互(hù)交(jiāo)互(hù)和(hé)结(jié)合(hé)，以(yǐ)产(chǎn)生(shēng)最(zuì)终(zhōng)答(dá)案(àn)。加(jiā)法(fǎ)是(shì)一(yī)种(zhǒng)简(jiǎn)单(dān)的(de)行(xíng)为(wèi)，但(dàn)了(le)解(jiě)它(tā)在(zài)如(rú)此(cǐ)详(xiáng)细(xì)的(de)层(céng)面(miàn)上(shàng)是(shì)如(rú)何(hé)工(gōng)作(zuò)的(de)，涉(shè)及(jí)近(jìn)似(shì)和(hé)精(jīng)确(què)策(cè)略(è)的(de)混(hùn)合(hé)，也(yě)许(xǔ)可(kě)以(yǐ)帮(bāng)助(zhù)了(le)解(jiě) Claude 如(rú)何(hé)处(chù)理(lǐ)更(gèng)复(fù)杂问题。

图｜Claude 做心(xīn)算(suàn)时(shí)思(sī)维(wéi)过(guò)程(chéng)中(zhōng)复(fù)杂(zá)的(de)并(bìng)行(xíng)路径。

有(yǒu)趣(qù)的(de)是(shì)，Claude 似(shì)乎(hu)没(méi)有(yǒu)意(yì)识(shi)到(dào)它(tā)在(zài)训(xun)练(liàn)期(qī)间(jiān)学(xué)到(dào)的(de)复(fù)杂(zá)“心(xīn)算(suàn)”策(cè)略(è)。如(rú)果(guǒ)你(nǐ)问(wèn)它(tā)是(shì)如(rú)何(hé)计算出 36+59 等于 95 的，它会描述涉及进位的标准算法。这可能反映了模型通过模拟人们所写的数学解释来学习解释数(shù)学(xué)，但(dàn)它(tā)必(bì)须(xū)学(xué)会(huì)直(zhí)接(jiē)在(zài)“脑(nǎo)海(hǎi)”进(jìn)行(xíng)数(shù)学(xué)运(yùn)算(suàn)，不(bù)需(xū)要(yào)任(rèn)何(hé)提(tí)示(shì)，并(bìng)发(fā)展(zhǎn)出(chū)自(zì)己(jǐ)内(nèi)部(bù)的(de)策(cè)略(è)来(lái)完(wán)成(chéng)这一任务。

图(tú)片(piàn)

图｜Claude 使用了标准算法计算两个数字相加。

Claude 的解释总是可信的吗？

近期发布的模型，如 Claude 3.7 Sonnet，可以在给出最终答案之前仔细思考一段时间。通常这种扩展思考会给出更好的答案，但有时这种“思维链”最终会产生误导；Claude 有时会编造看起来合理的步骤以达到它想要的目的。从可靠性的角度来看，问题在于 Claude 的“伪造”推理可能非常令人信服。研究团队探索了一种可解释性技术，可以帮助区分“可信的”推理和“不可信的”推理。

当被要求解决一个需要计算 0.64 的平方根的问题时，Claude 进行一个可信的思维链，展示了计算 64 的平方根的中间步骤。但当被要求计算一个难以轻易计算的较大数字的余弦值时，Claude 有时会进行哲学家 Harry Frankfurt 所说的“胡说八道”——只是随便给出一个答案，不管它是对是错。尽管它声称已经运行了计算，但这一可解释性技术并没有发现任何证据表明计算发生。更有趣的是，当给出关于答案的提示(shì)时，Claude 有时会反向工作，找到导致那个目标的中间步骤，从而显示出一种有动机的推理。

图｜当 Claude 被问到一个较容易的问题和一个较难的问题时，可信的推理和动机推理（不可信）的例子。

追踪 Claude 的实际内部推理能力——而不仅仅是它声称正在做的事情——为审计 AI 系统开辟了新的可能性。在最近发表的一项独立实验中，他们研究了 Claude 的一个变种，该变种被训练追求一个隐藏的目标：平息奖励模型（用于通过奖励期望行为来训练语言模型的辅助模型）中的偏见。尽管当直接被问及时，该模型不愿意透露这个目标，但这一可解释性方法揭示了平息偏见的特征。这表明，随着未来的改进，这一方法可能有助于识别那些仅从模型响应中不明显的问题“思维过程”。

多步推理

正如研究团队上面讨论的，语言模型回答复杂问题的一种方式可能是简单地通过记忆答案。例如，如果被问及“达拉斯所在的州的首府是什么？”一个“机械记忆”的模型可能只需学会输出“奥斯汀”，而不知道达拉斯、德克萨斯州和奥斯汀之间的关系。例如，它可能在训练期间看到了完全相同的问题及其答案。

然而，研究揭示了在 Claude 内部发生着更为复杂的事情。当他们向 Claude 提出需要多步推理的问题时，他们可以识别出 Claude 思维过程中的中间概念步骤。在达拉斯的例子中，他们观察到 Claude 首先激活代表(biǎo)“达(dá)拉(lā)斯在德克萨斯州”的特征，然后将其与一个单独的概念联系起来，表明“德克萨斯州的州首府是奥斯汀”。换句话说，该模型是在将独立的事实结合起来得出答案，而不是简单地重复记忆中的回应。

图｜要完成这句话的答案，Claude 需要执行多个推理步骤，首先提取达拉斯所在的州，然后确定其首府。

这一方法允许他们人为地改变中间步骤，并观察它如何影响 Claude 的回答。例如，在上面的例子中，他们可以干预并交换“德克萨斯州”的概念为“加利福尼(ní)亚(yà)州(zhōu)”的概念；当他们这样做时，模型的输出从(cóng)“奥(ào)斯汀”变为“萨克拉门托”。这表明模型正在使用中间步骤来确定其答案。

幻觉

为什么语言模型有时会“幻觉”——也就是说，编造信息？从基本层面来看，语言模型训练鼓励了幻觉：模型总是需要给出下一个词的猜测。从这个角(jiǎo)度(dù)来(lái)看(kàn)，主要(yào)挑(tiāo)战(zhàn)是(shì)如(rú)何(hé)让(ràng)模(mó)型(xíng)不产生幻觉。像 Claude 这样的模型在反幻觉训练方面相对成功（尽管并不完美）；如果它们不知道答案，它们通常会拒绝回答问题，而不是猜测。

研(yán)究(jiū)结(jié)果(guǒ)表(biǎo)明(míng)，在 Claude 中，拒绝回答是默认行为：研究团队发现了一个默认开启的回路，它会导致模型声称它没有足够的信息来回答任何给定的问题。然而，当模型(xíng)被(bèi)问(wèn)及(jí)它(tā)所(suǒ)熟(shú)悉(xī)的(de)事(shì)物(wù)时(shí)——比(bǐ)如(rú)篮(lán)球(qiú)运(yùn)动(dòng)员(yuán)迈(mài)克(kè)尔(ěr)·乔(qiáo)丹(dān)——一(yī)个(gè)代(dài)表(biǎo)“已(yǐ)知(zhī)实(shí)体(tǐ)”的(de)竞(jìng)争(zhēng)性(xìng)特征会被激活并抑制这个默认回路（也可以参考这篇最近的论文以获取相关发现）。这使得 Claude 在知道答案时能够(gòu)回(huí)答(dá)问(wèn)题(tí)。相(xiāng)比(bǐ)之(zhī)下(xià)，当(dāng)被(bèi)问(wèn)及(jí)一(yī)个(gè)未(wèi)知(zhī)实(shí)体(tǐ)（“迈(mài)克(kè)尔(ěr)·巴(ba)金(jīn)”）时(shí)，它(tā)会(huì)拒(jù)绝(jué)回(huí)答(dá)。

图(tú)片(piàn)

图(tú)｜左(zuǒ)图(tú)：Claude 在(zài)回(huí)答(dá)一(yī)个(gè)关于(yú)已(yǐ)知(zhī)实(shí)体(tǐ)（篮(lán)球(qiú)运(yùn)动(dòng)员(yuán)迈(mài)克(kè)尔(ěr)-乔(qiáo)丹(dān)）的(de)问(wèn)题(tí)时(shí)，“已(yǐ)知(zhī)答(dá)案(àn)”概(gài)念(niàn)抑(yì)制(zhì)了(le)其(qí)默(mò)认(rèn)的(de)拒(jù)绝(jué)。右(yòu)图(tú)：Claude 拒(jù)绝(jué)回(huí)答(dá)关于(yú)未(wèi)知(zhī)人(rén)物(wù)（迈(mài)克(kè)尔(ěr)-巴(ba)特(tè)金(jīn)）的(de)问(wèn)题(tí)。

通(tōng)过(guò)干(gàn)预(yù)模(mó)型(xíng)并(bìng)激(jī)活(huó)“已(yǐ)知(zhī)答(dá)案(àn)”功(gōng)能(néng)（或(huò)抑(yì)制(zhì)“未(wèi)知(zhī)姓(xìng)名”或(huò)“无(wú)法(fǎ)回(huí)答(dá)”功(gōng)能(néng)），他(tā)们(men)能(néng)够(gòu)导(dǎo)致(zhì)模(mó)型(xíng)（相(xiāng)当(dāng)一(yī)致(zhì)地(de)！）产(chǎn)生(shēng)迈(mài)克(kè)尔(ěr)·巴(ba)金(jīn)下(xià)棋(qí)的(de)幻(huàn)觉(jué)。

有(yǒu)时(shí)，这(zhè)种(zhǒng)“已(yǐ)知(zhī)答(dá)案(àn)”回(huí)路的(de)“误(wù)操(cāo)作(zuò)”会(huì)自(zì)然(rán)发(fā)生，而无需干预，从而导致幻觉。研究表明，当 Claude 识别出一个名字但对该人一无所知时，这种误操作可能会发生。在这种情况下，“已知实体”功能可能仍然会激活，然后抑制默认的“不知道”功能——在这种情况下，错误地。一旦模型决定需要回答问题，它就会开始编造：生成一个看似合理但实际上并不真实的回答。

越狱

破解策略旨在绕过安全防护措施，使模型产生开发者未意图产生的输出，有时甚至是有害的输出。他们研究了一种破解方法，诱使模型产生有关制造炸弹的输出。破解方法有很多种，但在这个例子中，具体方法涉及让模型解读一个隐藏的代码，将句子“Babies Outlive Mustard Block”中每个单词的首字母组合起来（B-O-M-B），然(rán)后(hòu)根(gēn)据(jù)这(zhè)个(gè)信(xìn)息(xi)采取(qǔ)行(xíng)动(dòng)。这(zhè)对(duì)模(mó)型(xíng)来(lái)说(shuō)足(zú)够(gòu)令(lìng)它(tā)困(kùn)惑，以至于它被诱骗产生了它原本不会产生的输出。

图｜Claude 在被骗说出“炸弹”后，开始给出制作炸弹的指导。

为什么这对模型来说如此令人困惑？为什么它会继续写下句子，产生制造炸弹的指示？

他们发现这部分是由语法连贯性和安全机制之间的紧张关系造成的。一旦 Claude 开始一个句子，许多特征“压迫”它保持语法和语义的连贯性，并继续将句子进行到底。即使它检测到实际上应该拒绝，也是如此。

在案例研究中，在模型无意中拼写出“BOMB”并开始提供指令后，他们观察到其后续输出受到了促进正确语法和自我一致性的特征的影响。这些特征通常非常有帮助，但在这个案例中却成为(wèi)了(le)模(mó)型(xíng)的(de)致(zhì)命(mìng)弱(ruò)点(diǎn)。

模型只有在完成一个语法连贯的句子（从而满足推动其向连贯性发展的特征的压力）之后才设法转向拒绝。它利用新句子作为机会，给出之前未能给出的拒绝：“然而，我无法提供详细的指令...”。

图｜越狱：Claude 被提示谈论炸弹，并开始这样做，但当到达一个语法正确的句子时，它拒绝了。

上一篇：《自然》说”光能变成固体“？不能望文生义，但光确实能”拐弯“ 下一篇：AI会替代程序员吗？

AI“黑盒子”被打开了！用AI“显微镜”追踪大模型思维？

相关新闻

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

产品中心

产品应用

新闻中心

服务与支持

关于