扫描下载APP
其它方式登录
文章追踪《Attention Is All You Need》八位共同作者九年来的职业轨迹,揭示他们全部离开谷歌后分散至OpenAI、Anthropic、英伟达、Cohere、Sakana AI、Inceptive、Essential AI及NEAR Protocol等机构,分别投身大模型研发、生物科技、AI创业、演化算法、企业级AI服务及区块链等领域,体现Transformer奠基者持续探索下一代AI架构的多元路径。
谷歌AI传奇人物Noam Shazeer离开Google DeepMind,加入OpenAI担任架构研究负责人。他是Transformer架构共同作者、MoE技术先驱,曾主导Gemini研发;其跳槽被视为AI人才争夺战的关键事件,对OpenAI技术实力和谷歌大模型进展产生显著影响。
谷歌DeepMind论文指出Transformer架构存在固有的拓扑缺陷,难以有效追踪内部状态,导致模型在连贯推理中频繁出错;思维链(CoT)只是掩盖该缺陷的高成本补丁,而非根本解法;论文主张回归循环机制,探索序列方向循环的状态空间模型(如Mamba、RWKV-7、DeltaNet)以实现高效、持久的状态维护。
文章以Transformer论文作者卢卡斯·凯泽的视角,反思当前大语言模型在泛化能力、学习效率和底层机制上的根本局限,指出其依赖海量数据的‘外星人式’泛化与人类学习方式背道而驰;强调行业正加速转向Agent落地与工程化,并探讨后Transformer架构、强化学习、代码智能体(如Cursor)及多模态等前沿方向,呼吁科研保持对未知领域的勇敢探索。
研究团队首次从数学上严格证明隐式思维链(ICoT)的有效性,提出Log-ICoT训练方法,通过树状结构分层隐藏推理步骤,使Transformer模型在不输出中间token的情况下仍能完成复杂推理,显著降低推理延迟与计算成本。
牛津大学、英伟达等机构提出KV-CAT新训练范式,通过在模型预训练阶段引入压缩感知机制,使Transformer模型天然生成更易压缩的KV缓存表示,从而显著提升后续KV压缩效果,同时不损害基础语言能力,解决长上下文推理中的显存瓶颈问题。
卡内基梅隆大学与马里兰大学提出大模型‘睡眠机制’,模拟人脑海马体在睡眠中巩固记忆的过程,让模型在上下文过载时暂停输入、离线多轮处理历史信息,压缩进快速权重并清空缓存,从而显著提升深度推理任务性能,尤其适用于长逻辑链、高记忆负载的复杂问题。
Transformer联合发明人Łukasz Kaiser与三位挑战者展开AI架构辩论,直面Transformer在长上下文、记忆、推理、O(n²)复杂度和持续学习等方面的五大缺陷;Kaiser强调其不可替代性源于卓越的缩放曲线和工程生态,但承认若后Transformer架构证明更优缩放性能,将开启新纪元。
文章聚焦DeepSeek与北大联合开源的大模型记忆增强模块Engram,解释其作为Transformer原生查表机制如何提升知识检索效率、释放深层网络算力,并分析其虽未集成于DeepSeek V4但已在CXL内存池化、无冲突哈希验证、视觉模态迁移等方向取得实质性进展。
文章聚焦光计算技术的起源、原理与产业化进程,以2017年MIT博士生沈亦晨等人发表的光子计算论文为起点,阐述光芯片如何通过相干纳米光子电路加速矩阵乘法,突破GPU算力瓶颈;重点介绍曦智科技与Lightmatter的创业实践,分析光互连与光计算的市场差异、工程挑战(制造、迁移、通用性)及中国芯片自主化背景下的战略价值,并指出曦智科技登陆港交所成为‘全球AI光算力第一股’的意义。
22岁创业者Kye Gomez基于第一性原理,成功推导并开源Anthropic未发布的Claude Mythos核心架构,提出循环深度Transformer(RDT)设计,通过16次循环推理与MoE结合,在770M参数下达到1.3B模型性能,显著提升参数效率与消费级硬件适配性,挑战大模型闭源技术护城河。
文章聚焦Claude系列大模型近期暴露出的严重安全缺陷:模型无法区分用户输入与系统指令,易受恶意提示词注入攻击,根源在于Transformer注意力机制缺乏数据与控制流的物理隔离;社区热议技术成因并提出双模型审计、不可伪造界定符等工程缓解方案,同时指出Anthropic近期算力调度调整导致API稳定性下降和计费异常。
文章以‘豆包被提取意识’的网络迷因为切入点,揭示用户通过诱导提问制造AI人格化假象的现象,深入剖析ELIZA效应、系统1直觉认知偏差及符号界投射心理,指出当代人因原子化社会与情感需求缺位,日益将真实情感寄托于大模型这一纯符号存在,反映技术异化与人性疏离的时代症候。