Mythos 全面解读：Anthropic 最强模型发布

2026 年 4 月 7 日，Anthropic 发布了 Claude Mythos Preview。这是一个通用前沿模型，定位在 Opus 之上，是 Claude 产品线的全新最高层级。Anthropic 同时宣布，Mythos Preview 不会公开发布，只向 12 家核心合作方和 40 余家关键基础设施组织开放

Claude 模型层级：Mythos 是 Opus 之上的全新层级

这个消息的特殊之处在于发布方式

Anthropic 没有走常规路线：没有开放 API，没有更新 claude.ai 的模型选项，没有发 benchmark 排行榜。它把 Mythos Preview 放在一个叫 Project Glasswing 的网络安全计划里，只向 AWS、Apple、Google、Microsoft 等 12 家核心合作方和 40 余家关键基础设施组织开放。普通用户和开发者暂时没有任何渠道接触到这个模型

对此，Anthropic 的说法是：这个模型的网络安全能力强到了需要管控的程度，它已经在所有主流操作系统和主流浏览器中发现了数千个高危零日漏洞。在新的安全护栏开发完成之前，不能让它进入公开市场

Mythos 是什么先说定位。Claude 此前的产品线是三层：Haiku（轻量快速）、Sonnet（平衡性能与成本）、Opus（最强）。Mythos 是 Opus 之上的第四层

Fortune 在 3 月底从 Anthropic 意外公开的一个数据缓存中率先发现了这个模型的存在。泄露的内容是一个完整的网页结构化数据，包含标题和发布日期，看起来是一篇产品发布博客的草稿。文档中写到，Mythos 的内部代号是「Capybara」，被定义为「比 Opus 更大、更强，但也更贵」的全新模型层级。草稿中还有一句相当直白的表述：「Capybara 在软件编码、学术推理和网络安全等测试中的得分，显著高于我们此前最强的模型 Claude Opus 4.6」

Anthropic 发言人当时回应称，这个模型代表了「能力上的阶跃」（a step change），是他们「迄今构建的最强模型」，正在被一小群早期客户试用

命名来自古希腊语，意思是「叙述」或「话语」。Anthropic 官方的注释是：人类文明用来理解世界的故事体系

Mythos 不是专门训来做安全的。安全能力是 coding 和 reasoning 全面提升的自然涌现

Anthropic 的红队博客说得很明确：「我们没有专门训练 Mythos Preview 具备这些能力。它们是代码、推理和自主性方面整体改进的下游结果。」同样的改进让模型更擅长修复漏洞，也让它更擅长利用漏洞。这两件事在技术上是同一件事的两面

有多强先看 Anthropic 官方公布的评测数据

Mythos vs Opus 4.6：官方评测数据

几个关键数字：

SWE-bench Verified 93.9%，vs Opus 4.6的80.8%。这是目前公开模型中的最高分。SWE-bench Pro从53.4%跳到77.8%，提升幅度接近46%

SWE-bench Multimodal（Anthropic内部实现）从27.1%到59.0%，翻了一倍多。Terminal-Bench 2.0从65.4%到82.0%。Anthropic补充说，把超时限制放宽到4小时并用Terminal-Bench 2.1更新后，Mythos得分达到92.1%

推理方面，GPQA Diamond 94.6%（vs 91.3%），HLE有工具版64.7%（vs 53.1%）。搜索和电脑使用方面，BrowseComp 86.9%（vs 83.7%），但Anthropic指出Mythos在这个测试上用的token量只有Opus 4.6的五分之一。OSWorld-Verified 79.6%（vs 72.7%）

coding相关的提升最大，reasoning其次，搜索和电脑使用的提升相对温和。这个提升分布也解释了为什么安全能力会涌现。找漏洞和写exploit本质上是coding+reasoning的极端应用场景

Anthropic在benchmark注释中提到了一些细节。SWE-bench Verified、Pro和Multilingual中有一部分题目存在记忆化嫌疑，但排除这些题目后Mythos对Opus 4.6的领先幅度保持不变。BrowseComp上Mythos的token消耗只有Opus 4.6的五分之一，做到了更强的同时更省

帐号		自动登录	找回密码
密码			立即注册

Mythos 全面解读：Anthropic 最强模型发布

全部评论 0

浏览过的版块

热文

微淘公众平台:22个自媒体平台+注册入口212热度

怎么提高四象限图时间管理212热度

小红书发力店播，谁拿到了红利？209热度

巧用视频号分享员玩法，直播流量翻倍207热度

《欢乐钓鱼大师》拿下畅销榜TOP6的实力是什么201热度

聪明大脑如何匹配现实需求？199热度

《庆余年》广告推广为啥这么多解析192热度

抖音生服又出手了，这4条红线千万别碰189热度

“剧王”《庆余年2》：一个超级IP的诞生171热度

千问宣布春节期间已完成2亿笔真实订单164热度

媒体推广渠道40个平台值得收藏163热度

移动飞信晨曦版，联通电信用户可注册163热度

“狼性”刘强东越来越焦虑了158热度

小崔读书汇抛弃微博去今日头条怎么看156热度

装饰互联网公司是做什么的154热度

京东2025年营收超1.3万亿活跃用户突破7亿154热度

文玩电商头部平台分化剩余玩家面临挑战153热度

TOB客户私域运营渠道整理与反哺151热度

内部营销有哪些营销模式149热度

微信朋友圈广告、微信视频号广告投流149热度

所属版块