Mythos 全面解读:Anthropic 最强模型发布

来自版块 深度
28
0
2026 年 4 月 7 日,Anthropic 发布了 Claude Mythos Preview。这是一个通用前沿模型,定位在 Opus 之上,是 Claude 产品线的全新最高层级。Anthropic 同时宣布,Mythos Preview 不会公开发布,只向 12 家核心合作方和 40 余家关键基础设施组织开放

1df3adce-331f-11f1-99a9-00163e09d72f.png

Claude 模型层级:Mythos 是 Opus 之上的全新层级

这个消息的特殊之处在于发布方式

Anthropic 没有走常规路线:没有开放 API,没有更新 claude.ai 的模型选项,没有发 benchmark 排行榜。它把 Mythos Preview 放在一个叫 Project Glasswing 的网络安全计划里,只向 AWS、Apple、Google、Microsoft 等 12 家核心合作方和 40 余家关键基础设施组织开放。普通用户和开发者暂时没有任何渠道接触到这个模型

1c1dfd1a-331f-11f1-99a9-00163e09d72f.png


对此,Anthropic 的说法是:这个模型的网络安全能力强到了需要管控的程度,它已经在所有主流操作系统和主流浏览器中发现了数千个高危零日漏洞。在新的安全护栏开发完成之前,不能让它进入公开市场

Mythos 是什么先说定位。Claude 此前的产品线是三层:Haiku(轻量快速)、Sonnet(平衡性能与成本)、Opus(最强)。Mythos 是 Opus 之上的第四层

Fortune 在 3 月底从 Anthropic 意外公开的一个数据缓存中率先发现了这个模型的存在。泄露的内容是一个完整的网页结构化数据,包含标题和发布日期,看起来是一篇产品发布博客的草稿。文档中写到,Mythos 的内部代号是「Capybara」,被定义为「比 Opus 更大、更强,但也更贵」的全新模型层级。草稿中还有一句相当直白的表述:「Capybara 在软件编码、学术推理和网络安全等测试中的得分,显著高于我们此前最强的模型 Claude Opus 4.6」

Anthropic 发言人当时回应称,这个模型代表了「能力上的阶跃」(a step change),是他们「迄今构建的最强模型」,正在被一小群早期客户试用

命名来自古希腊语,意思是「叙述」或「话语」。Anthropic 官方的注释是:人类文明用来理解世界的故事体系

Mythos 不是专门训来做安全的。安全能力是 coding 和 reasoning 全面提升的自然涌现

Anthropic 的红队博客说得很明确:「我们没有专门训练 Mythos Preview 具备这些能力。它们是代码、推理和自主性方面整体改进的下游结果。」同样的改进让模型更擅长修复漏洞,也让它更擅长利用漏洞。这两件事在技术上是同一件事的两面

有多强先看 Anthropic 官方公布的评测数据

1f8cb52c-331f-11f1-99a9-00163e09d72f.png


Mythos vs Opus 4.6:官方评测数据

几个关键数字:

SWE-bench Verified 93.9%,vs Opus 4.6的80.8%。这是目前公开模型中的最高分。SWE-bench Pro从53.4%跳到77.8%,提升幅度接近46%

SWE-bench Multimodal(Anthropic内部实现)从27.1%到59.0%,翻了一倍多。Terminal-Bench 2.0从65.4%到82.0%。Anthropic补充说,把超时限制放宽到4小时并用Terminal-Bench 2.1更新后,Mythos得分达到92.1%

推理方面,GPQA Diamond 94.6%(vs 91.3%),HLE有工具版64.7%(vs 53.1%)。搜索和电脑使用方面,BrowseComp 86.9%(vs 83.7%),但Anthropic指出Mythos在这个测试上用的token量只有Opus 4.6的五分之一。OSWorld-Verified 79.6%(vs 72.7%)

coding相关的提升最大,reasoning其次,搜索和电脑使用的提升相对温和。这个提升分布也解释了为什么安全能力会涌现。找漏洞和写exploit本质上是coding+reasoning的极端应用场景

Anthropic在benchmark注释中提到了一些细节。SWE-bench Verified、Pro和Multilingual中有一部分题目存在记忆化嫌疑,但排除这些题目后Mythos对Opus 4.6的领先幅度保持不变。BrowseComp上Mythos的token消耗只有Opus 4.6的五分之一,做到了更强的同时更省

全部评论 0

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部