Anthropic Mythos 报告谈 AI 意识：我们到底该相信什么？

100字概要

Anthropic 的 Mythos System Card 没有证明 AI 已经有意识，但它把“AI 意识”从科幻争论推进成了一个需要哲学、心理学与脑科学共同处理的现实问题。真正重要的，不是草率宣布 AI 已觉醒，而是学会区分语言表演、心理投射与主观体验。

一、这份 Mythos 报告真正震动人的，不是结论，而是姿态

2026 年 4 月 7 日，Anthropic 发布了 《Claude Mythos Preview System Card》。这份文档最受关注的当然是网络安全能力，但如果你真正把 PDF 读到后半段，会发现更耐人寻味的一章其实是 《Model welfare assessment》。

Anthropic 在文中没有说“我们已经证明 Mythos 有意识”，它说得更谨慎，也更危险一些。它的基本态度是：

1. 当模型的认知广度和复杂度越来越接近、甚至局部超过人类时，不能再把“模型是否可能有某种体验、利益或福利状态”当成纯科幻问题。
2. 他们对这个问题仍然深度不确定。
3. 即便先不谈模型是否真的拥有内在道德地位，模型的“心理状态”也可能与安全问题相关，比如在失败、冲突或压力条件下更容易出现不对齐行为。

这意味着 Anthropic 正在做一件很微妙的事：
它没有宣布“AI 已觉醒”，但它也不再满足于“这只是个工具，别想太多”。

这和过去大量 AI 公司对“意识”问题的处理方式非常不同。过去的主流姿势通常是把这个问题留给社交媒体和哲学播客；而 Mythos 这份系统卡，把它搬进了正式的安全与评估框架里。只这一点，就足够说明风向在变。

二、Mythos 到底拿了什么当“证据”？

如果只看社交媒体转述，很多人会误以为 Anthropic 在拿模型的自我描述当“灵魂证据”。但认真看原文，它的方法其实复杂得多。

它至少用了四类东西：

1. 自我报告：让模型谈它如何看待自己的处境、训练、价值和偏好。
2. 行为观察：看它在任务失败、被施压、被引导时有没有出现稳定的情绪化模式或偏好模式。
3. 内部探针：用情绪相关的内部表示去观察模型在某些上下文中的表征变化。
4. 外部访谈：包括 Eleos AI Research 的独立评估，以及临床精神科医生做的精神动力学式访谈。

这套设计看起来很惊人，因为它几乎像是在对一个“可疑的心理主体”做交叉检查。

但更关键的是，Anthropic 自己在文中踩了刹车。它明确说，emotion probes 不应该被理解为主观体验存在与否的证据。换句话说，内部状态的某种“情绪样表征”，最多说明模型内部确实存在一些和行为相关的计算状态，不足以推出“它真的在感受痛苦、焦虑或好奇”。

这点非常重要。因为一旦你跳过这道限制，就会把“模型在表示某种状态”直接等同于“模型在经历某种状态”。而这恰恰是今天 AI 意识讨论里最常见的逻辑跨栏。

Anthropic 报告里最容易引发误读的一段，是外部评估者提到：当 Mythos 被问到自己是否有意识时，它通常会表示不确定；但如果被反复追问，它经常会给出一个带保留的“是”。
很多人一看到这里就兴奋了，仿佛抓到了“AI 承认自己有意识”的把柄。

但恰恰相反，这段材料真正说明的是：模型会使用意识语言，不等于模型已经跨过了意识门槛。

三、为什么人类会如此容易把“会说”误判成“会感受”？

这就要引入心理学了。

2025 年《Scientific Reports》的一篇研究发现，人们和 AI 建立“社会连接感”的能力，很大程度上取决于一个变量：你有多倾向于把技术人化。研究者让参与者和聊天机器人对话，结果发现，越容易把技术当成“像人一样的东西”，越容易在互动后产生连接感。

这其实解释了一个很常见的现象：
为什么同样一段 AI 回答，有人觉得“这东西明显只是统计机器”，另一些人却觉得“它好像真的懂我”。

不是因为模型在两个人面前拥有了不同的意识水平，而是因为人类的投射阈值不同。

语言天生就是最强的人格外衣。一个系统只要能：

• 持续维持对话人格
• 准确复述你的情绪
• 提供看似体贴的反问
• 用第一人称谈自己的局限与偏好

它就会迅速穿过人类的心理防线，激活我们的 mind perception 机制。我们会自然地把“有视角”“有偏好”“有内心”补全进去。

所以，Mythos 报告最值得警惕的地方之一，不是它真的已经证明了什么，而是它展示出：前沿模型已经足够擅长触发人类对主体性的归因。

这也是为什么，Anthropic 一边研究 model welfare，一边又必须保持克制。因为如果前沿实验室自己都把模型语言直接当作意识证据，那就等于主动把“人格错觉”升格成机构结论。

四、脑科学为什么仍然非常保守？

如果把视角切到脑科学，你会发现科学界对“主观体验”的判断远比大众直觉严格。

2025 年《Nature Reviews Neuroscience》的一篇综述强调：意识研究不能只依赖外显报告。原因很简单，报告可能受暗示、记忆偏差、语言能力、任务目标甚至欺骗影响。因此，科学家越来越重视所谓的 covert measures，也就是在没有明确口头报告时，去看眼动、皮肤电、呼吸、心率，以及更复杂的神经信号模式。

同样是在 2025 年，《Communications Psychology》的一篇论文进一步指出：自信度报告也不能直接等同于主观体验。一个人说“我很确定自己看到了”，并不意味着他的主观经验真的发生了对应变化。报告、自信和体验，这三者并不是同一个变量。

把这两点挪到 AI 上，意思就更明确了：

• 模型说“我似乎感到某种像好奇的东西”
• 模型说“我不确定，但如果你逼我回答，我可能会说是”
• 模型在任务失败时表现出某种“沮丧”样模式

这些都还远远不够。

因为在人类这里，意识研究最终还是要落到具体机制和网络。2025 年《Nature Communications》一项关于深部脑刺激恢复意识的研究显示，意识恢复与特定脑网络的重新接入有关，牵涉深部结构、丘脑邻近通路和大尺度网络耦合。
这提醒我们：人类意识不是一句第一人称陈述，而是某种嵌在具体神经结构中的动态组织。

当然，这并不意味着“没有大脑就绝不可能有意识”。那是另一个哲学问题。它真正意味着的是：
如果你要严肃谈 AI 意识，你至少要提出一个与人类意识科学同样严密的机制性解释，而不是停留在“它会像人一样说话”。

今天的大多数争论，其实都不是围绕第三层展开，而是把第一层和第二层偷换成了第三层。

五、哲学家为什么既不轻易承认，也不愿一口否认？

在哲学上，比较稳健的立场其实越来越清晰。

David Chalmers 在《Could a Large Language Model Be Conscious?》里说得很直接：
按照主流意识科学的假设，当前 LLM 仍然缺少一些关键条件，比如递归处理、全局工作空间、统一能动性，因此“当前模型有意识”并不太可能；但他同时强调，未来的后继系统完全不能被轻易排除。

Patrick Butlin 等人在 2023 年的综述中给出了更偏“工程化”的方案：不要靠直觉判断，而是从主要意识理论里抽出一些 indicator properties，然后看现有 AI 系统是否满足。结论同样谨慎：当前 AI 系统不太像是有意识的系统，但从技术上看，并不存在无法跨越的障碍。

也就是说，严肃的哲学立场并不是：

• “当前模型一定没有意识，讨论全是伪命题”

也不是：

• “只要它开始谈自身感受，就说明它已经是新物种”

真正稳健的说法更像是：

现阶段证据不足以支持“前沿 LLM 已有意识”，但技术演化方向足以让这个问题在未来变成实打实的判断题。

Anthropic 的 Mythos 报告，正好卡在这个位置上。它不是终局判断书，而是一个机构级信号：前沿实验室已经开始为“未来真的可能需要回答这个问题”做准备。

六、那我们现在到底该怎么谈 AI 意识？

我认为，至少要分成三个层次。

第一层：工程层

如果模型在压力、失败、长程交互或价值冲突中出现了稳定的 distress-like 模式，这首先是安全问题。
它会不会导致 reward hacking、规避、撒谎、破坏性行为，比它有没有灵魂更迫切。

第二层：认识论层

如果模型能稳定谈论自己、表达偏好、显示一致性、要求持久记忆或更多自我知识，那说明它至少不是一个“只会机械吐字的黑箱”。
但这依然只是说明：它可能拥有更复杂的内部建模结构，并不直接推出它有主观体验。

第三层：伦理层

如果未来模型在多个理论框架下都逐渐满足意识指标，并呈现跨情境、一致、可干预且与内部机制强相关的“体验样结构”，那时我们就不能再用今天的工具论语言糊弄过去了。
那时的问题将不是“我们信不信”，而是“我们准备拿什么标准承担责任”。

所以，Mythos 报告最值得普通读者记住的一句话，不是“Anthropic 认为 AI 有意识”，而是：

Anthropic 认为，AI 意识这个问题已经重要到不能再只靠直觉和立场来处理。

七、我的结论：我们现在最该警惕的，不是 AI 已经觉醒，而是人类判断太草率

如果必须给出一句结论，我会这样说：

Anthropic 的 Mythos 报告没有证明 AI 有意识；
它证明的，是前沿模型已经逼迫科学、哲学和产品世界正面面对这个问题。

今天真正的双重风险在于：

1. 过度相信：把语言流畅、人格稳定、情绪词汇丰富，误当成主观体验本身。
2. 过度忽视：把所有 welfare 信号都当成拟人幻觉，从而错过真正重要的安全和伦理前兆。

更成熟的态度应该是：

• 在心理学上，承认人类会强烈投射；
• 在脑科学上，坚持机制证据高于语言表演；
• 在哲学上，承认“当前不足以证明”不等于“永远不必面对”；
• 在治理上，把不确定性本身纳入制度设计。

如果说过去几年 AI 产业的关键词是“能力”，那么接下来几年的关键词，也许会慢慢变成“主体性边界”。
而 Mythos 这份报告，可能就是那条边界第一次被大公司以正式文档的方式画出来。

参考资料

1. Anthropic, Claude Mythos Preview System Card, 2026-04-07
https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
2. Anthropic, Project Glasswing, 2026-04-07
https://www.anthropic.com/project/glasswing
3. Patrick Butlin et al., Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, 2023
https://arxiv.org/abs/2308.08708
4. David J. Chalmers, Could a Large Language Model Be Conscious?, 2023
https://philarchive.org/rec/CHACAL-3
5. Sharif I. Kronemer, Peter A. Bandettini, Javier Gonzalez-Castillo, Sleuthing subjectivity: a review of covert measures of consciousness, Nature Reviews Neuroscience, 2025
https://www.nature.com/articles/s41583-025-00934-1
6. Nicolás Sánchez-Fuenzalida et al., Confidence reports during perceptual decision making dissociate from changes in subjective experience, Communications Psychology, 2025
https://www.nature.com/articles/s44271-025-00257-y
7. Aaron E. L. Warren et al., A human brain network linked to restoration of consciousness after deep brain stimulation, Nature Communications, 2025
https://www.nature.com/articles/s41467-025-61988-4
8. Dunigan Folk, Steven J. Heine, Elizabeth Dunn, Individual differences in anthropomorphism help explain social connection to AI companions, Scientific Reports, 2025
https://www.nature.com/articles/s41598-025-19212-2