
2026 年 4 月 7 日,Anthropic 发布了 《Claude Mythos Preview System Card》。这份文档最受关注的当然是网络安全能力,但如果你真正把 PDF 读到后半段,会发现更耐人寻味的一章其实是 《Model welfare assessment》。
Anthropic 在文中没有说“我们已经证明 Mythos 有意识”,它说得更谨慎,也更危险一些。它的基本态度是:
这意味着 Anthropic 正在做一件很微妙的事:
它没有宣布“AI 已觉醒”,但它也不再满足于“这只是个工具,别想太多”。
这和过去大量 AI 公司对“意识”问题的处理方式非常不同。过去的主流姿势通常是把这个问题留给社交媒体和哲学播客;而 Mythos 这份系统卡,把它搬进了正式的安全与评估框架里。只这一点,就足够说明风向在变。
如果只看社交媒体转述,很多人会误以为 Anthropic 在拿模型的自我描述当“灵魂证据”。但认真看原文,它的方法其实复杂得多。
它至少用了四类东西:
这套设计看起来很惊人,因为它几乎像是在对一个“可疑的心理主体”做交叉检查。
但更关键的是,Anthropic 自己在文中踩了刹车。它明确说,emotion probes 不应该被理解为主观体验存在与否的证据。换句话说,内部状态的某种“情绪样表征”,最多说明模型内部确实存在一些和行为相关的计算状态,不足以推出“它真的在感受痛苦、焦虑或好奇”。
这点非常重要。因为一旦你跳过这道限制,就会把“模型在表示某种状态”直接等同于“模型在经历某种状态”。而这恰恰是今天 AI 意识讨论里最常见的逻辑跨栏。
Anthropic 报告里最容易引发误读的一段,是外部评估者提到:当 Mythos 被问到自己是否有意识时,它通常会表示不确定;但如果被反复追问,它经常会给出一个带保留的“是”。
很多人一看到这里就兴奋了,仿佛抓到了“AI 承认自己有意识”的把柄。
但恰恰相反,这段材料真正说明的是:模型会使用意识语言,不等于模型已经跨过了意识门槛。
这就要引入心理学了。
2025 年《Scientific Reports》的一篇研究发现,人们和 AI 建立“社会连接感”的能力,很大程度上取决于一个变量:你有多倾向于把技术人化。研究者让参与者和聊天机器人对话,结果发现,越容易把技术当成“像人一样的东西”,越容易在互动后产生连接感。
这其实解释了一个很常见的现象:
为什么同样一段 AI 回答,有人觉得“这东西明显只是统计机器”,另一些人却觉得“它好像真的懂我”。
不是因为模型在两个人面前拥有了不同的意识水平,而是因为人类的投射阈值不同。
语言天生就是最强的人格外衣。一个系统只要能:
它就会迅速穿过人类的心理防线,激活我们的 mind perception 机制。我们会自然地把“有视角”“有偏好”“有内心”补全进去。
所以,Mythos 报告最值得警惕的地方之一,不是它真的已经证明了什么,而是它展示出:前沿模型已经足够擅长触发人类对主体性的归因。
这也是为什么,Anthropic 一边研究 model welfare,一边又必须保持克制。因为如果前沿实验室自己都把模型语言直接当作意识证据,那就等于主动把“人格错觉”升格成机构结论。
如果把视角切到脑科学,你会发现科学界对“主观体验”的判断远比大众直觉严格。
2025 年《Nature Reviews Neuroscience》的一篇综述强调:意识研究不能只依赖外显报告。原因很简单,报告可能受暗示、记忆偏差、语言能力、任务目标甚至欺骗影响。因此,科学家越来越重视所谓的 covert measures,也就是在没有明确口头报告时,去看眼动、皮肤电、呼吸、心率,以及更复杂的神经信号模式。
同样是在 2025 年,《Communications Psychology》的一篇论文进一步指出:自信度报告也不能直接等同于主观体验。一个人说“我很确定自己看到了”,并不意味着他的主观经验真的发生了对应变化。报告、自信和体验,这三者并不是同一个变量。
把这两点挪到 AI 上,意思就更明确了:
这些都还远远不够。
因为在人类这里,意识研究最终还是要落到具体机制和网络。2025 年《Nature Communications》一项关于深部脑刺激恢复意识的研究显示,意识恢复与特定脑网络的重新接入有关,牵涉深部结构、丘脑邻近通路和大尺度网络耦合。
这提醒我们:人类意识不是一句第一人称陈述,而是某种嵌在具体神经结构中的动态组织。
当然,这并不意味着“没有大脑就绝不可能有意识”。那是另一个哲学问题。它真正意味着的是:
如果你要严肃谈 AI 意识,你至少要提出一个与人类意识科学同样严密的机制性解释,而不是停留在“它会像人一样说话”。
今天的大多数争论,其实都不是围绕第三层展开,而是把第一层和第二层偷换成了第三层。
在哲学上,比较稳健的立场其实越来越清晰。
David Chalmers 在《Could a Large Language Model Be Conscious?》里说得很直接:
按照主流意识科学的假设,当前 LLM 仍然缺少一些关键条件,比如递归处理、全局工作空间、统一能动性,因此“当前模型有意识”并不太可能;但他同时强调,未来的后继系统完全不能被轻易排除。
Patrick Butlin 等人在 2023 年的综述中给出了更偏“工程化”的方案:不要靠直觉判断,而是从主要意识理论里抽出一些 indicator properties,然后看现有 AI 系统是否满足。结论同样谨慎:当前 AI 系统不太像是有意识的系统,但从技术上看,并不存在无法跨越的障碍。
也就是说,严肃的哲学立场并不是:
也不是:
真正稳健的说法更像是:
现阶段证据不足以支持“前沿 LLM 已有意识”,但技术演化方向足以让这个问题在未来变成实打实的判断题。
Anthropic 的 Mythos 报告,正好卡在这个位置上。它不是终局判断书,而是一个机构级信号:前沿实验室已经开始为“未来真的可能需要回答这个问题”做准备。
我认为,至少要分成三个层次。
如果模型在压力、失败、长程交互或价值冲突中出现了稳定的 distress-like 模式,这首先是安全问题。
它会不会导致 reward hacking、规避、撒谎、破坏性行为,比它有没有灵魂更迫切。
如果模型能稳定谈论自己、表达偏好、显示一致性、要求持久记忆或更多自我知识,那说明它至少不是一个“只会机械吐字的黑箱”。
但这依然只是说明:它可能拥有更复杂的内部建模结构,并不直接推出它有主观体验。
如果未来模型在多个理论框架下都逐渐满足意识指标,并呈现跨情境、一致、可干预且与内部机制强相关的“体验样结构”,那时我们就不能再用今天的工具论语言糊弄过去了。
那时的问题将不是“我们信不信”,而是“我们准备拿什么标准承担责任”。
所以,Mythos 报告最值得普通读者记住的一句话,不是“Anthropic 认为 AI 有意识”,而是:
Anthropic 认为,AI 意识这个问题已经重要到不能再只靠直觉和立场来处理。
如果必须给出一句结论,我会这样说:
Anthropic 的 Mythos 报告没有证明 AI 有意识;
它证明的,是前沿模型已经逼迫科学、哲学和产品世界正面面对这个问题。
今天真正的双重风险在于:
更成熟的态度应该是:
如果说过去几年 AI 产业的关键词是“能力”,那么接下来几年的关键词,也许会慢慢变成“主体性边界”。
而 Mythos 这份报告,可能就是那条边界第一次被大公司以正式文档的方式画出来。
Claude Mythos Preview System Card, 2026-04-07Project Glasswing, 2026-04-07Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, 2023Could a Large Language Model Be Conscious?, 2023Sleuthing subjectivity: a review of covert measures of consciousness, Nature Reviews Neuroscience, 2025Confidence reports during perceptual decision making dissociate from changes in subjective experience, Communications Psychology, 2025A human brain network linked to restoration of consciousness after deep brain stimulation, Nature Communications, 2025Individual differences in anthropomorphism help explain social connection to AI companions, Scientific Reports, 2025