Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路

新智元
个人专栏
热度: 5793

22岁创业者Kye Gomez基于第一性原理,成功推导并开源Anthropic未发布的Claude Mythos核心架构,提出循环深度Transformer(RDT)设计,通过16次循环推理与MoE结合,在770M参数下达到1.3B模型性能,显著提升参数效率与消费级硬件适配性,挑战大模型闭源技术护城河。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

简直太疯狂了!

Anthropic捂得最严实的Claude Mythos,竟被一个22岁的年轻人扒开了。

Claude Mythos

不是泄露,不是内部员工跳槽带出来的。

是一个叫Kye Gomez的初创CEO,以第一性原理,硬生生把Claude Mythos的核心架构从头推导了出来。

更炸裂的是,他把这一项目——OpenMythos全开源了

Claude Mythos

Claude Mythos

复现帖引近100万人围观

一时间,全网都坐不住了,网友们纷纷惊叹Mythos背景精妙的设计。

Claude Mythos

Claude Mythos

不堆参数,原地「循环思考」16次

先说结论,Kye Gomez认为——

Claude Mythos的核心不是一个更大的Transformer,而是一种叫做「循环深度Transformer」(Recurrent-Depth Transformer, RDT)的架构

说白了就是,同一套权重,在一次前向传播里循环跑最多16次。

Claude Mythos

传统大模型像盖高楼,一层一层往上堆参数。100层不够就200层,200层不够就500层。

参数越多,模型越大,显存吃得越猛,训练成本越恐怖。

但RDT完全换了一个思路:不盖高楼,原地跑圈。

模型只有一个核心计算块,但这个块会被反复执行。每循环一次,隐藏状态就更新一次,就相当于「多想了一步」。

而且所有的思考都在连续潜空间里默默进行——不用像思维链(CoT)那样,每一步都吐出可见的token。

这不是重复计算,是迭代推理。

Claude Mythos

架构全拆解:三段式设计

整个OpenMythos的架构分三段:

Prelude(序曲)→ Recurrent Block(循环核心)→ Coda(终章)

Prelude和Coda是标准的Transformer层,各跑一次。

真正的计算核心是中间的「循环块」,它最多循环16次,每次循环的更新规则是:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude编码后的原始输入,每一步都会被重新注入,防止模型在循环中「跑偏」。

Claude Mythos

MoE给广度,循环给深度

光靠循环能解释Mythos推理的「深度」,但解释不了广度。

OpenMythos在循环核心的每个FFN层,都替换成了MoE层,设计参考了DeepSeek-MoE:

大量细粒度的路由专家;

每个token只激活其中一小部分;

少量「共享专家」始终激活,负责吸收跨领域的通用知识。

最精妙的一点,随着隐藏状态h_t在循环中不断演化,路由器在每一层循环深度会选择不同的专家子集。

也就是说,虽然权重共享,但每次循环的计算路径完全不同:

MoE提供广度,循环提供深度。

Claude Mythos

项目地址:https://github.com/kyegomez/OpenMythos

注意力机制默认使用「多潜变量注意力」(Multi-Latent Attention),来自DeepSeek-V2,把KV缓存压缩成低秩潜变量,在生产规模下能实现10-20倍的KV显存节省。

三个额外机制保证循环稳定性:LTI约束注入(谱半径强制小于1)、自适应计算时间(ACT)逐位置停机、以及深度级LoRA适配器让每次迭代都有独立的行为调整能力。

细思极恐,这套设计精密得像一台瑞士钟表。

770M打平1.3B,参数效率直接翻倍

这不是嘴上说说。

此前,来自Parcae团队的实验数据:一个770M参数的循环模型,在同等训练数据下,能达到1.3B标准Transformer的下游任务质量。

换句话说——用一半的参数,干了同样的活。

Claude Mythos

这对整个行业意味着什么?

对消费级硬件来说,这是天大的利好。以前跑个像样的模型,没有A100你连门都进不了。

现在呢?推理深度是时间换空间——你不需要更多的显存,只需要多跑几圈。

更重磅的是,这彻底改写了AI的Scaling法则。以前拼的是谁的参数多、谁的GPU多、谁的电费账单厚。

现在的规则变了:未来最强的模型,不是参数最多的,而是想得最多次的。

不过,作者也表示,这目前只是理论上的说法,还需要保留一些意见。

Claude Mythos

高中毕业,就当上了CEO

这位扒开22岁Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的创始人,之前还领导过Agora Labs。

他的研究重点是——大规模多智能体系统、替代模型架构和多模态模型。

Claude Mythos

个人主页显示,Kye Gomez高中毕业之后,就开始投身于创业。

Claude Mythos

在2021年-2024年间,他同时担任了三家公司的联创/CEO,创建立了一个以 「APAC」为品牌的生态体系。

其覆盖了AI深科技、媒体、食品科技等多个领域。

Claude Mythos

22岁小哥,开源了Anthropic神级模型

这件事最让人震撼的,不是架构本身有多厉害。

是一个22岁的创业者,只用公开论文和第一性原理,就把Anthropic藏了一年的黑箱直接复现了出来。

还全开源了,而且只要几行代码就能跑。

这意味着什么?

闭源实验室的架构优势,正在以肉眼可见的速度消失。

FT最新报道中,Dario Amodei重磅预测,中国将在12个月内,完全复刻出具备Claude Mythos级别能力的大模型。

Claude Mythos

针对外界对LLM性能是否触及天花板的质疑,Amode用一句富有诗意的话给出了回应——

彩虹没有尽头,只有彩虹本身。

他强调,目前完全看不到技术放缓的迹象。

当一个人用公开信息就能重建最核心的技术,护城河就不再是架构了。

参考资料:

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos 

本文来自微信公众号“新智元”,作者:新智元

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。