Transformer_Transformer相关新闻_Transformer动态

DeepSeek V4最大的遗憾

文章聚焦DeepSeek与北大联合开源的大模型记忆增强模块Engram，解释其作为Transformer原生查表机制如何提升知识检索效率、释放深层网络算力，并分析其虽未集成于DeepSeek V4但已在CXL内存池化、无冲突哈希验证、视觉模态迁移等方向取得实质性进展。

量子位05月06日 15:54

给光一个机会

文章聚焦光计算技术的起源、原理与产业化进程，以2017年MIT博士生沈亦晨等人发表的光子计算论文为起点，阐述光芯片如何通过相干纳米光子电路加速矩阵乘法，突破GPU算力瓶颈；重点介绍曦智科技与Lightmatter的创业实践，分析光互连与光计算的市场差异、工程挑战（制造、迁移、通用性）及中国芯片自主化背景下的战略价值，并指出曦智科技登陆港交所成为‘全球AI光算力第一股’的意义。

远川研究所04月30日 08:02

Claude Mythos,Recurrent-Depth Transformer,OpenMythos

Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

22岁创业者Kye Gomez基于第一性原理，成功推导并开源Anthropic未发布的Claude Mythos核心架构，提出循环深度Transformer（RDT）设计，通过16次循环推理与MoE结合，在770M参数下达到1.3B模型性能，显著提升参数效率与消费级硬件适配性，挑战大模型闭源技术护城河。

新智元04月20日 21:18

Claude神之bug：给自己下指令，还诬赖用户？Hacker News炸了

文章聚焦Claude系列大模型近期暴露出的严重安全缺陷：模型无法区分用户输入与系统指令，易受恶意提示词注入攻击，根源在于Transformer注意力机制缺乏数据与控制流的物理隔离；社区热议技术成因并提出双模型审计、不可伪造界定符等工程缓解方案，同时指出Anthropic近期算力调度调整导致API稳定性下降和计费异常。

量子位04月10日 15:52