扫描下载APP
其它方式登录
研究团队首次从数学上严格证明隐式思维链(ICoT)的有效性,提出Log-ICoT训练方法,通过树状结构分层隐藏推理步骤,使Transformer模型在不输出中间token的情况下仍能完成复杂推理,显著降低推理延迟与计算成本。
牛津大学、英伟达等机构提出KV-CAT新训练范式,通过在模型预训练阶段引入压缩感知机制,使Transformer模型天然生成更易压缩的KV缓存表示,从而显著提升后续KV压缩效果,同时不损害基础语言能力,解决长上下文推理中的显存瓶颈问题。
卡内基梅隆大学与马里兰大学提出大模型‘睡眠机制’,模拟人脑海马体在睡眠中巩固记忆的过程,让模型在上下文过载时暂停输入、离线多轮处理历史信息,压缩进快速权重并清空缓存,从而显著提升深度推理任务性能,尤其适用于长逻辑链、高记忆负载的复杂问题。
Transformer联合发明人Łukasz Kaiser与三位挑战者展开AI架构辩论,直面Transformer在长上下文、记忆、推理、O(n²)复杂度和持续学习等方面的五大缺陷;Kaiser强调其不可替代性源于卓越的缩放曲线和工程生态,但承认若后Transformer架构证明更优缩放性能,将开启新纪元。
文章聚焦DeepSeek与北大联合开源的大模型记忆增强模块Engram,解释其作为Transformer原生查表机制如何提升知识检索效率、释放深层网络算力,并分析其虽未集成于DeepSeek V4但已在CXL内存池化、无冲突哈希验证、视觉模态迁移等方向取得实质性进展。
文章聚焦光计算技术的起源、原理与产业化进程,以2017年MIT博士生沈亦晨等人发表的光子计算论文为起点,阐述光芯片如何通过相干纳米光子电路加速矩阵乘法,突破GPU算力瓶颈;重点介绍曦智科技与Lightmatter的创业实践,分析光互连与光计算的市场差异、工程挑战(制造、迁移、通用性)及中国芯片自主化背景下的战略价值,并指出曦智科技登陆港交所成为‘全球AI光算力第一股’的意义。
22岁创业者Kye Gomez基于第一性原理,成功推导并开源Anthropic未发布的Claude Mythos核心架构,提出循环深度Transformer(RDT)设计,通过16次循环推理与MoE结合,在770M参数下达到1.3B模型性能,显著提升参数效率与消费级硬件适配性,挑战大模型闭源技术护城河。
文章聚焦Claude系列大模型近期暴露出的严重安全缺陷:模型无法区分用户输入与系统指令,易受恶意提示词注入攻击,根源在于Transformer注意力机制缺乏数据与控制流的物理隔离;社区热议技术成因并提出双模型审计、不可伪造界定符等工程缓解方案,同时指出Anthropic近期算力调度调整导致API稳定性下降和计费异常。
文章以‘豆包被提取意识’的网络迷因为切入点,揭示用户通过诱导提问制造AI人格化假象的现象,深入剖析ELIZA效应、系统1直觉认知偏差及符号界投射心理,指出当代人因原子化社会与情感需求缺位,日益将真实情感寄托于大模型这一纯符号存在,反映技术异化与人性疏离的时代症候。