Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

个人专栏

2026-04-20热度: 6084

22岁创业者Kye Gomez基于第一性原理，成功推导并开源Anthropic未发布的Claude Mythos核心架构，提出循环深度Transformer（RDT）设计，通过16次循环推理与MoE结合，在770M参数下达到1.3B模型性能，显著提升参数效率与消费级硬件适配性，挑战大模型闭源技术护城河。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

简直太疯狂了！

Anthropic捂得最严实的Claude Mythos，竟被一个22岁的年轻人扒开了。

Claude Mythos

不是泄露，不是内部员工跳槽带出来的。

是一个叫Kye Gomez的初创CEO，以第一性原理，硬生生把Claude Mythos的核心架构从头推导了出来。

更炸裂的是，他把这一项目——OpenMythos全开源了。

Claude Mythos

复现帖引近100万人围观

一时间，全网都坐不住了，网友们纷纷惊叹Mythos背景精妙的设计。

Claude Mythos

不堆参数，原地「循环思考」16次

先说结论，Kye Gomez认为——

Claude Mythos的核心不是一个更大的Transformer，而是一种叫做「循环深度Transformer」（Recurrent-Depth Transformer, RDT）的架构。

说白了就是，同一套权重，在一次前向传播里循环跑最多16次。

Claude Mythos

传统大模型像盖高楼，一层一层往上堆参数。100层不够就200层，200层不够就500层。

参数越多，模型越大，显存吃得越猛，训练成本越恐怖。

但RDT完全换了一个思路：不盖高楼，原地跑圈。

模型只有一个核心计算块，但这个块会被反复执行。每循环一次，隐藏状态就更新一次，就相当于「多想了一步」。

而且所有的思考都在连续潜空间里默默进行——不用像思维链（CoT）那样，每一步都吐出可见的token。

这不是重复计算，是迭代推理。

Claude Mythos

架构全拆解：三段式设计

整个OpenMythos的架构分三段：

Prelude（序曲）→ Recurrent Block（循环核心）→ Coda（终章）

Prelude和Coda是标准的Transformer层，各跑一次。

真正的计算核心是中间的「循环块」，它最多循环16次，每次循环的更新规则是：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude编码后的原始输入，每一步都会被重新注入，防止模型在循环中「跑偏」。

Claude Mythos

MoE给广度，循环给深度

光靠循环能解释Mythos推理的「深度」，但解释不了广度。

OpenMythos在循环核心的每个FFN层，都替换成了MoE层，设计参考了DeepSeek-MoE：

大量细粒度的路由专家；

每个token只激活其中一小部分；

少量「共享专家」始终激活，负责吸收跨领域的通用知识。

最精妙的一点，随着隐藏状态h_t在循环中不断演化，路由器在每一层循环深度会选择不同的专家子集。

也就是说，虽然权重共享，但每次循环的计算路径完全不同：

MoE提供广度，循环提供深度。

Claude Mythos

项目地址：https://github.com/kyegomez/OpenMythos

注意力机制默认使用「多潜变量注意力」（Multi-Latent Attention），来自DeepSeek-V2，把KV缓存压缩成低秩潜变量，在生产规模下能实现10-20倍的KV显存节省。

三个额外机制保证循环稳定性：LTI约束注入（谱半径强制小于1）、自适应计算时间（ACT）逐位置停机、以及深度级LoRA适配器让每次迭代都有独立的行为调整能力。

细思极恐，这套设计精密得像一台瑞士钟表。

770M打平1.3B，参数效率直接翻倍

这不是嘴上说说。

此前，来自Parcae团队的实验数据：一个770M参数的循环模型，在同等训练数据下，能达到1.3B标准Transformer的下游任务质量。

换句话说——用一半的参数，干了同样的活。

Claude Mythos

这对整个行业意味着什么？

对消费级硬件来说，这是天大的利好。以前跑个像样的模型，没有A100你连门都进不了。

现在呢？推理深度是时间换空间——你不需要更多的显存，只需要多跑几圈。

更重磅的是，这彻底改写了AI的Scaling法则。以前拼的是谁的参数多、谁的GPU多、谁的电费账单厚。

现在的规则变了：未来最强的模型，不是参数最多的，而是想得最多次的。

不过，作者也表示，这目前只是理论上的说法，还需要保留一些意见。

Claude Mythos

高中毕业，就当上了CEO

这位扒开22岁Claude Mythos黑箱的大男孩Kye Gomez，是Swarms的创始人，之前还领导过Agora Labs。

他的研究重点是——大规模多智能体系统、替代模型架构和多模态模型。

Claude Mythos

个人主页显示，Kye Gomez高中毕业之后，就开始投身于创业。

Claude Mythos

在2021年-2024年间，他同时担任了三家公司的联创/CEO，创建立了一个以 「APAC」为品牌的生态体系。

其覆盖了AI深科技、媒体、食品科技等多个领域。

Claude Mythos

22岁小哥，开源了Anthropic神级模型

这件事最让人震撼的，不是架构本身有多厉害。

是一个22岁的创业者，只用公开论文和第一性原理，就把Anthropic藏了一年的黑箱直接复现了出来。

还全开源了，而且只要几行代码就能跑。

这意味着什么？

闭源实验室的架构优势，正在以肉眼可见的速度消失。

FT最新报道中，Dario Amodei重磅预测，中国将在12个月内，完全复刻出具备Claude Mythos级别能力的大模型。

Claude Mythos

针对外界对LLM性能是否触及天花板的质疑，Amode用一句富有诗意的话给出了回应——

彩虹没有尽头，只有彩虹本身。

他强调，目前完全看不到技术放缓的迹象。

当一个人用公开信息就能重建最核心的技术，护城河就不再是架构了。

参考资料：

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

本文来自微信公众号“新智元”，作者：新智元

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:Claude Mythos Recurrent-Depth Transformer OpenMythos

24H热门新闻

暂无内容

7x24H 快讯

18分钟前

数据：现货白银日内重挫 8.00%，现报 76.79 美元/盎司

18分钟前

分析：比特币在监管利好与收益率上升之间震荡，ETF 持续流出施压价格

21分钟前

数据：Hyperliquid 平台鲸鱼当前持仓 42.49 亿美元，多空持仓比为 1

27分钟前

Datavault AI 披露已签署超 8 亿美元代币化合约

27分钟前

数据：监测到 3,150 万 USDT 转入 Binance

27分钟前

美国利率期货显示预计到明年1月份美联储加息概率超50%

37分钟前

CME与纽交所正推动美国监管机构对Hyperliquid进行监管

39分钟前

高德上线空间智能开放平台

Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

不堆参数，原地「循环思考」16次

架构全拆解：三段式设计

MoE给广度，循环给深度

770M打平1.3B，参数效率直接翻倍

高中毕业，就当上了CEO

22岁小哥，开源了Anthropic神级模型

推广

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

不堆参数，原地「循环思考」16次

架构全拆解：三段式设计

MoE给广度，循环给深度

770M打平1.3B，参数效率直接翻倍

高中毕业，就当上了CEO

22岁小哥，开源了Anthropic神级模型

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作