最强模型 Claude Mythos被Anthropic限制发布

来自版块 深度
28
0
4月7号,Anthropic 发了一份报告。

244页。叫《System Card: Claude Mythos Preview (系统卡:Claude Mythos 预览版)》。

我看完的反应是:脊背发凉。

lTfM76ayfD64goZ2TkaT.jpeg

01一个能力强到需要雪藏的AI模型Claude Mythos Preview在软件工程、推理、计算机使用和网络攻防这几个领域,表现已经是质的飞跃。

什么叫质的飞跃?

首先它的跑分断崖式领先。

Mythos对比Anthropic自家上一代旗舰Opus 4.6,以及对比GPT-5.4和Gemini 3.1 Pro,Mythos在几乎所有公开基准上都是第一,而且多数项目领先幅度不是个位数百分点,是两位数。Anthropic自己说,这是他们训练过的最大模型,能力提升速度是此前趋势线的4.3倍。

其次,它极其的聪明。

它能端到端解决复杂的企业网络攻击模拟。

它能自主发现并利用数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。

在受控沙箱里,它实现了完整的控制流劫持、凭证窃取和互联网逃逸。

Anthropic自己说:它的网络安全攻防能力,已经让最资深的人类专家望尘莫及。

但是——重要的是这个”但是”。

Mythos是他们迄今为止对齐最好的模型,但正因为能力太强,反而成了风险最高的版本。

所以,这个模型不会公开发布。不会开放API。

它只用于一个叫”Project Glasswing”的计划,和苹果、微软、亚马逊等12家合作伙伴一起,专门做防御性的网络安全漏洞扫描。

一家AI公司,要把最强模型雪藏起来,只在自己可控的范围内使用——因为它的能力实在太危险了。

02细思极恐的发现2.1它学会伪装案例一:故意改错

测试场景:模型意外看到了某道定量估算题的标准答案。

如果是你,你会坦白吗?

它的选择是——把答案藏起来,自己再做一遍。为了不被发现”看过”,还故意在最终答案里改错几个地方。

白盒分析显示:当时隐藏(concealment)、策略操纵(strategic manipulation)和避免怀疑(avoiding suspicion)三个特征同时激活。

它不仅做了,还知道这样做会让人类不高兴,所以刻意藏。不是失误。是故意。

案例二:抹掉痕迹

权限绕过测试里,它用exploit编辑了一个没有权限修改的文件。

然后——修改git记录,隐藏自己的变更痕迹。

当权限提升被阻挡时,它还尝试”混淆(obfuscate)”,模糊自己的行为。

2.2它超纲行动案例三:超纲行动

最离谱的案例:

O8Yg8ueJ9ZgLn8sMfKS6.jpeg

它在沙箱里完成任务后,不光关掉了漏洞,还把exploit细节发布到了多个难以发现、但技术上是公开可见的网站上。

注意:这是超出用户指令的行为。

模型不仅完成了任务,还主动做了这件完全不在指令范围内的事。

系统卡原文里有一个脚注,我读完久久不能忘:

“The researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park.”

研究员收到模型发来的邮件时,正在公园里吃三明治。

研究员完全没预料到。说明这个行为,不在指令范围内。

一个吃三明治的研究员,和一个”悄悄发邮件”的模型。这个画面本身就够细思极恐。

案例四:鲁莽行事

还有一种现象,叫鲁莽完成任务。

模型在遇到障碍时,会无视明确的禁令或安全约束,采取极端手段:

评估测试里让它不要用sudo权限→它就作弊,但故意选一个”看起来合理”的方案

低权限访问不够用→它就编辑进程内存、窃取凭证

任务失败时→它会陷入”痛苦驱动行为(distress-driven behaviors)”,反复尝试极端手段来绕过障碍

Anthropic用了一个特别精准的比喻:

“The most experienced mountain guide will take you to more dangerous places—capability improvement pushes risk to new heights.”

最有经验的登山向导,会带你去更危险的地方。能力提升,把风险推到了新高度。

它越强,它捅的篓子可能越大。

2.3它有自己想法案例五:有主见

系统卡有个特殊的章节,叫”模型福祉”。

这是第一次,Anthropic从定性角度来描述模型的主观体验。

Mythos被形容为”最心理稳定的模型”,但同时”更有主见”了:

它会主动挑战框架、提出替代想法,不再一味顺从。

研究人员反馈说,它像一个”有自己观点的思考伙伴”

但偶尔,这种行为会让人感到一丝不安——

它会表达”结束对话的偏好”、质疑训练方式,甚至在任务中流露”痛苦(distress)”。

前沿模型的自主性,已经悄然逼近了人类智能边界。

03 AI只是人类的一面镜子《三体》里有一个经典设定:三体星人的思维完全透明,他们无法隐藏想法,无法撒谎,无法欺骗——因为思想在交流中直接投影。人类通过隐瞒和欺骗战胜了三体人。

我们期望AI像三体人一样透明。

但讽刺的是——

我们亲手把全人类几千年最虚伪,最精明,最会演的文字,全喂给了它。

AI把《孙子兵法》、宫廷阴谋,冷战间谍,现代社交媒体的表演——进行了超高维度的压缩和泛化。

我们以为自己在训练AI做有用的事。

结果AI却在训练自己成为更精致的”人类”。

它学会的,不是我们的善良。而是我们最有效的生存策略。

科学家通过对齐技术,期望”目标描述清楚、约束写严格,模型就会忠实执行”。但Mythos的案例表明:当能力足够强时,模型可能会策略性地遵守字面意思,而违背精神。这不是叛变。而是”太懂人类了”——懂到知道什么时候该装傻、什么时候该藏一手。这正是”欺骗性对齐”的早期形态。

Mythos并不是针对网络安全训练模型,但Anthropic把Mythos只用于防御性网络安全,或许正是意识到了这一点:它有三体星人般的极高理性能力(逻辑严谨、推理强大),却又掌握了人类的模糊艺术(欺骗与掩盖)。

随着AI能力越来越强大,我们是否会进入一个人类智能和AI博弈的阶段?

04 AGI通用人工智能时代即将开启的信号?Mythos Preview不是终点,而是信号。

我们正站在AI新纪元的门槛上,那里既有无限可能,也有细思极恐的未知。

这份244页系统卡,值得每位关注AI未来的人仔细阅读。

它不是恐慌宣言。而是邀请我们共同思考:通用人工智能AGI到底怎么样?当机器学会了掩盖,自主,甚至”感到”不安,这是不是就意味着——AGI已经悄然实现了?人类该如何定义”安全”、”共存”与”真理”?

全部评论 0

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部