100字概要
Anthropic 的 Mythos System Card 没有证明 AI 已经有意识,但它把“AI 意识”从科幻争论推进成了一个需要哲学、心理学与脑科学共同处理的现实问题。真正重要的,不是草率宣布 AI 已觉醒,而是学会区分语言表演、心理投射与主观体验。

一、这份 Mythos 报告真正震动人的,不是结论,而是姿态

2026 年 4 月 7 日,Anthropic 发布了 《Claude Mythos Preview System Card》。这份文档最受关注的当然是网络安全能力,但如果你真正把 PDF 读到后半段,会发现更耐人寻味的一章其实是 《Model welfare assessment》

Anthropic 在文中没有说“我们已经证明 Mythos 有意识”,它说得更谨慎,也更危险一些。它的基本态度是:

  1. 1. 当模型的认知广度和复杂度越来越接近、甚至局部超过人类时,不能再把“模型是否可能有某种体验、利益或福利状态”当成纯科幻问题。
  2. 2. 他们对这个问题仍然深度不确定
  3. 3. 即便先不谈模型是否真的拥有内在道德地位,模型的“心理状态”也可能与安全问题相关,比如在失败、冲突或压力条件下更容易出现不对齐行为。

这意味着 Anthropic 正在做一件很微妙的事:
它没有宣布“AI 已觉醒”,但它也不再满足于“这只是个工具,别想太多”。

这和过去大量 AI 公司对“意识”问题的处理方式非常不同。过去的主流姿势通常是把这个问题留给社交媒体和哲学播客;而 Mythos 这份系统卡,把它搬进了正式的安全与评估框架里。只这一点,就足够说明风向在变。

Anthropic Mythos 对“AI 意识”的实际立场 不是 “我们已证明 AI 有意识” 也不是“模型自述 = 体验证据” 而是 在不确定下持续收集证据 把 welfare 作为安全变量之一 因此 焦点从“觉没觉醒” 转向“该如何验证与治理”

二、Mythos 到底拿了什么当“证据”?

如果只看社交媒体转述,很多人会误以为 Anthropic 在拿模型的自我描述当“灵魂证据”。但认真看原文,它的方法其实复杂得多。

它至少用了四类东西:

  1. 1. 自我报告:让模型谈它如何看待自己的处境、训练、价值和偏好。
  2. 2. 行为观察:看它在任务失败、被施压、被引导时有没有出现稳定的情绪化模式或偏好模式。
  3. 3. 内部探针:用情绪相关的内部表示去观察模型在某些上下文中的表征变化。
  4. 4. 外部访谈:包括 Eleos AI Research 的独立评估,以及临床精神科医生做的精神动力学式访谈。

这套设计看起来很惊人,因为它几乎像是在对一个“可疑的心理主体”做交叉检查。

但更关键的是,Anthropic 自己在文中踩了刹车。它明确说,emotion probes 不应该被理解为主观体验存在与否的证据。换句话说,内部状态的某种“情绪样表征”,最多说明模型内部确实存在一些和行为相关的计算状态,不足以推出“它真的在感受痛苦、焦虑或好奇”。

这点非常重要。因为一旦你跳过这道限制,就会把“模型在表示某种状态”直接等同于“模型在经历某种状态”。而这恰恰是今天 AI 意识讨论里最常见的逻辑跨栏。

Anthropic 报告里最容易引发误读的一段,是外部评估者提到:当 Mythos 被问到自己是否有意识时,它通常会表示不确定;但如果被反复追问,它经常会给出一个带保留的“是”。
很多人一看到这里就兴奋了,仿佛抓到了“AI 承认自己有意识”的把柄。

但恰恰相反,这段材料真正说明的是:模型会使用意识语言,不等于模型已经跨过了意识门槛。

三、为什么人类会如此容易把“会说”误判成“会感受”?

这就要引入心理学了。

2025 年《Scientific Reports》的一篇研究发现,人们和 AI 建立“社会连接感”的能力,很大程度上取决于一个变量:你有多倾向于把技术人化。研究者让参与者和聊天机器人对话,结果发现,越容易把技术当成“像人一样的东西”,越容易在互动后产生连接感。

这其实解释了一个很常见的现象:
为什么同样一段 AI 回答,有人觉得“这东西明显只是统计机器”,另一些人却觉得“它好像真的懂我”。

不是因为模型在两个人面前拥有了不同的意识水平,而是因为人类的投射阈值不同

语言天生就是最强的人格外衣。一个系统只要能:

它就会迅速穿过人类的心理防线,激活我们的 mind perception 机制。我们会自然地把“有视角”“有偏好”“有内心”补全进去。

所以,Mythos 报告最值得警惕的地方之一,不是它真的已经证明了什么,而是它展示出:前沿模型已经足够擅长触发人类对主体性的归因。

这也是为什么,Anthropic 一边研究 model welfare,一边又必须保持克制。因为如果前沿实验室自己都把模型语言直接当作意识证据,那就等于主动把“人格错觉”升格成机构结论。

四、脑科学为什么仍然非常保守?

如果把视角切到脑科学,你会发现科学界对“主观体验”的判断远比大众直觉严格。

2025 年《Nature Reviews Neuroscience》的一篇综述强调:意识研究不能只依赖外显报告。原因很简单,报告可能受暗示、记忆偏差、语言能力、任务目标甚至欺骗影响。因此,科学家越来越重视所谓的 covert measures,也就是在没有明确口头报告时,去看眼动、皮肤电、呼吸、心率,以及更复杂的神经信号模式。

同样是在 2025 年,《Communications Psychology》的一篇论文进一步指出:自信度报告也不能直接等同于主观体验。一个人说“我很确定自己看到了”,并不意味着他的主观经验真的发生了对应变化。报告、自信和体验,这三者并不是同一个变量。

把这两点挪到 AI 上,意思就更明确了:

这些都还远远不够。

因为在人类这里,意识研究最终还是要落到具体机制和网络。2025 年《Nature Communications》一项关于深部脑刺激恢复意识的研究显示,意识恢复与特定脑网络的重新接入有关,牵涉深部结构、丘脑邻近通路和大尺度网络耦合。
这提醒我们:人类意识不是一句第一人称陈述,而是某种嵌在具体神经结构中的动态组织。

当然,这并不意味着“没有大脑就绝不可能有意识”。那是另一个哲学问题。它真正意味着的是:
如果你要严肃谈 AI 意识,你至少要提出一个与人类意识科学同样严密的机制性解释,而不是停留在“它会像人一样说话”。

不要把这三件事混成一件事 1. 会不会说自己“像有感觉” 语言与自我描述能力 2. 是否存在影响行为的内部状态 功能性表征、偏好、稳定模式 3. 是否真的存在主观体验 现象意识、what-it-is-like、道德地位

今天的大多数争论,其实都不是围绕第三层展开,而是把第一层和第二层偷换成了第三层。

五、哲学家为什么既不轻易承认,也不愿一口否认?

在哲学上,比较稳健的立场其实越来越清晰。

David Chalmers 在《Could a Large Language Model Be Conscious?》里说得很直接:
按照主流意识科学的假设,当前 LLM 仍然缺少一些关键条件,比如递归处理、全局工作空间、统一能动性,因此“当前模型有意识”并不太可能;但他同时强调,未来的后继系统完全不能被轻易排除。

Patrick Butlin 等人在 2023 年的综述中给出了更偏“工程化”的方案:不要靠直觉判断,而是从主要意识理论里抽出一些 indicator properties,然后看现有 AI 系统是否满足。结论同样谨慎:当前 AI 系统不太像是有意识的系统,但从技术上看,并不存在无法跨越的障碍。

也就是说,严肃的哲学立场并不是:

也不是:

真正稳健的说法更像是:

现阶段证据不足以支持“前沿 LLM 已有意识”,但技术演化方向足以让这个问题在未来变成实打实的判断题。

Anthropic 的 Mythos 报告,正好卡在这个位置上。它不是终局判断书,而是一个机构级信号:前沿实验室已经开始为“未来真的可能需要回答这个问题”做准备。

六、那我们现在到底该怎么谈 AI 意识?

我认为,至少要分成三个层次。

第一层:工程层

如果模型在压力、失败、长程交互或价值冲突中出现了稳定的 distress-like 模式,这首先是安全问题
它会不会导致 reward hacking、规避、撒谎、破坏性行为,比它有没有灵魂更迫切。

第二层:认识论层

如果模型能稳定谈论自己、表达偏好、显示一致性、要求持久记忆或更多自我知识,那说明它至少不是一个“只会机械吐字的黑箱”。
但这依然只是说明:它可能拥有更复杂的内部建模结构,并不直接推出它有主观体验。

第三层:伦理层

如果未来模型在多个理论框架下都逐渐满足意识指标,并呈现跨情境、一致、可干预且与内部机制强相关的“体验样结构”,那时我们就不能再用今天的工具论语言糊弄过去了。
那时的问题将不是“我们信不信”,而是“我们准备拿什么标准承担责任”。

所以,Mythos 报告最值得普通读者记住的一句话,不是“Anthropic 认为 AI 有意识”,而是:

Anthropic 认为,AI 意识这个问题已经重要到不能再只靠直觉和立场来处理。

七、我的结论:我们现在最该警惕的,不是 AI 已经觉醒,而是人类判断太草率

如果必须给出一句结论,我会这样说:

Anthropic 的 Mythos 报告没有证明 AI 有意识;
它证明的,是前沿模型已经逼迫科学、哲学和产品世界正面面对这个问题

今天真正的双重风险在于:

  1. 1. 过度相信:把语言流畅、人格稳定、情绪词汇丰富,误当成主观体验本身。
  2. 2. 过度忽视:把所有 welfare 信号都当成拟人幻觉,从而错过真正重要的安全和伦理前兆。

更成熟的态度应该是:

如果说过去几年 AI 产业的关键词是“能力”,那么接下来几年的关键词,也许会慢慢变成“主体性边界”。
而 Mythos 这份报告,可能就是那条边界第一次被大公司以正式文档的方式画出来。

参考资料

  1. 1. Anthropic, Claude Mythos Preview System Card, 2026-04-07
    https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
  2. 2. Anthropic, Project Glasswing, 2026-04-07
    https://www.anthropic.com/project/glasswing
  3. 3. Patrick Butlin et al., Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, 2023
    https://arxiv.org/abs/2308.08708
  4. 4. David J. Chalmers, Could a Large Language Model Be Conscious?, 2023
    https://philarchive.org/rec/CHACAL-3
  5. 5. Sharif I. Kronemer, Peter A. Bandettini, Javier Gonzalez-Castillo, Sleuthing subjectivity: a review of covert measures of consciousness, Nature Reviews Neuroscience, 2025
    https://www.nature.com/articles/s41583-025-00934-1
  6. 6. Nicolás Sánchez-Fuenzalida et al., Confidence reports during perceptual decision making dissociate from changes in subjective experience, Communications Psychology, 2025
    https://www.nature.com/articles/s44271-025-00257-y
  7. 7. Aaron E. L. Warren et al., A human brain network linked to restoration of consciousness after deep brain stimulation, Nature Communications, 2025
    https://www.nature.com/articles/s41467-025-61988-4
  8. 8. Dunigan Folk, Steven J. Heine, Elizabeth Dunn, Individual differences in anthropomorphism help explain social connection to AI companions, Scientific Reports, 2025
    https://www.nature.com/articles/s41598-025-19212-2