2026“端侧AI战事”升级,苹果谷歌们在拼什么?

AI观察员热度: 4175

2026年端侧AI竞争升级,核心从模型压缩转向模型、芯片、系统与场景的软硬协同。苹果推出稀疏架构AFM3系列,Google采用蒸馏路线,面壁智能聚焦低比特量化与国产芯片适配,行业共识是端云协同成为主流,落地关键在于功耗、实时性、隐私保护及多终端(手机、汽车、PC等)场景深度整合。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

2026上半年,端侧大模型走到了一个新阶段:模型将继续变小、变轻,但光靠压缩已经不够了。接下来的关键,是让模型和底层框架、芯片、具体设备场景配合起来,从“能跑起来”走向“更好用”。

这样的转变,正在头部厂商身上集中发生。在6月9日的苹果全球开发者大会(WWDC2026)上,苹果发力端侧大模型,发布了AFM3系列。

苹果的思路是,从根本上为端侧设计出省算力的结构,推出约200亿参数的端侧主力AFM 3 Core Advanced,把模型本体做大,通过稀疏架构,每次推理只激活其中一部分参数。

这是苹果的解法。不过从整个行业看,在端侧的落地路径上,仍然面临不同取舍和分化。

一些公司走“蒸馏路线”:让能力强的大模型迁移给体量更小的模型,再把这个小模型装进设备里跑,以更低的成本逼近先进大模型的效果。

Google的Gemini Nano就是典型代表。早期Gemini技术报告中提到,Gemini Nano由更大的Gemini模型蒸馏而来,面向端侧部署,直接跑在Pixel、三星Galaxy等安卓手机本地上。

还有一类厂商则选择从端侧约束出发,重新设计模型本身。在有限的算力、内存和功耗条件下,尽可能提高端侧模型单位参数能够承载的能力密度。

这条路线押中是端侧大模型的“小而强”:模型体积要足够小,才能进入更多手机、PC、车机、机器人等终端;能力又要足够完整,才能支撑端侧 Agent、实时交互和本地智能体验。

以国内聚焦端侧大模型的面壁智能为例,长期强调模型压缩和能力密度提升。从MiniCPM系列开始,希望用更小的参数规模,尽量承载更强的模型能力。

到目前,面壁智能选择沿着低比特路线继续压缩模型,并联合清华大学、OpenBMB开源社区发布的BitCPM-CANN,已经在华为昇腾平台上验证了1.58-bit三值大模型的训练方案。

面壁智能的思路是,以前大模型的每个参数在计算机里通常要占用更多存储空间和计算资源,现在改成只用极少的位数就能表示,这样模型可以更省算力、也更省存储。

并且,这一步的压缩,使得端侧大模型的升级不再只停留在模型算法层面,也开始进入芯片适配层面。

在近日和面壁智能的一次交流会上,面壁智能CEO李大海表示:“今年以来,随着行业整体把推演转移到国产芯片上,我们也在逐步把训练工作转移到国产芯片和国产集群”。

这也指向端侧大模型的一个共同趋势:模型越往终端走,就越依赖软硬协同。单纯把模型做小还不够,模型需要贴合芯片的计算方式,芯片也需要围绕大模型推理继续优化。

行业中,类似的动作已经越来越多。无论是苹果围绕Apple Silicon芯片推出Core AI,还是高通、联发科、英特尔等厂商,都在搭建自己的端侧AI平台。

端侧AI的竞争,正在从比拼参数规模和压缩比例,转向模型、芯片、系统、应用之间的整体配合。

不过,端侧大模型的共识正在形成,分歧也随之浮现。

当模型真正进入手机、汽车、PC、机器人等真实设备后,行业讨论的焦点开始更加聚焦在端侧能力的核心能力拓展和边界上:端侧模型应该承担哪些核心任务?本地智能与云端智能如何分工?端侧模型从“能跑”走向“好用”,还要跨过哪些门槛?

围绕这些问题,面壁智能CEO李大海分享了他对端侧大模型进入落地阶段后的判断与思考。

01、苹果加码端侧:一场迟到的“系统工程”

问:苹果2026年继续加码端侧大模型,推出的端侧大模型AFM3 Core Advanced,也让端侧AI再次成为行业焦点。你怎么看苹果这一路线的落地进展?如何看待苹果通过“稀疏路线”切入端侧的方式?对安卓手机厂商来说,会带来怎样的竞争压力?

李大海: 我觉得可以从几个角度看。

第一,苹果的端云协同战略其实在2024年6月就已经公布了,到现在逐步落地,某种程度上已经晚于行业预期。这说明端侧大模型不是一个简单的模型问题,而是涉及芯片、系统、软件生态和具体场景定义的系统工程。

第二,苹果切入端侧大模型,也进一步说明这个方向本身是成立的。端侧模型的价值,不只是把一个小模型放到手机里,而是要真正改变人与设备的交互方式。手机是用户最常使用、也最贴近个人数据和个人场景的终端,因此非常适合承载一部分高频、实时、隐私敏感的智能能力。

第三,这件事并不完全是苹果和安卓之间的竞争。关键不在于操作系统阵营,而在于谁能找到更合适的芯片、更高效的模型,以及更清晰的产品场景定义。

其实,国内手机厂商很早就在关注这个方向,也在和模型公司、芯片公司进行深度合作。就我的观察,大家对端侧智能的理解都相当深入,差距并没有外界想象中那么大。从面壁的角度看,我们从2024年起就提出了端侧战略,并持续与国内终端厂商合作。

问:苹果正在加码端侧大模型,高端安卓手机厂商也在寻找自己的端侧AI路线。端侧大模型真正形成体验差异,关键取决于哪些能力?

李大海: 从面壁智能的经验看,手机厂商评估端侧模型,通常会看几个很具体的问题。

首先是模型本身的能力和部署成本。 端侧模型不能只看参数大小,也不能只看某个榜单分数。它最终要跑在手机这样的设备上,所以必须同时考虑能力、速度、功耗和内存占用。模型太弱,用户感知不到价值;模型太重,又会带来耗电、发热和体验不稳定的问题。

其次是和端侧芯片的适配能力。手机里的AI能力最终要落到芯片上运行,模型公司不能等硬件确定之后再做简单适配。比较理想的方式,是在更早阶段就和芯片厂商一起看模型结构、推理方式、内存占用和功耗表现。比如面壁和包括高通在内的一些端侧芯片厂商都有合作,也会在部分方向上做更前置的联合优化。

第三是推理效率。手机和汽车这类终端设备,对功耗和稳定性的要求很高。用户不会接受一个看起来能力很强,但一用就明显耗电、发热或者响应不稳定的 AI 功能。所以在效果接近的情况下,谁能用更低功耗、更低延迟把体验做出来,谁就更有优势。

苹果进入端侧大模型,会加速整个生态成熟。对高端安卓手机来说,压力会变大,但机会也仍然存在。未来真正决定竞争力的,还是芯片、模型、系统和场景能否形成高效协同。谁能把这些环节打通,谁就更有机会把端侧AI变成用户真正可感知的体验。

02、端侧落地的瓶颈:模型与芯片的结合

问:进入2026年后,端侧模型的落地进展到了什么阶段?目前制约端侧模型进一步规模化应用的关键瓶颈是什么?

李大海: 2025年,面壁智能的端侧模型已经在汽车场景中实现量产,这是一个很重要的标志;今年则进入了落地的第二年,端侧模型的增长速度其实非常快。

但端侧模型真正向下落地,最大的制约还是刚提到的——模型与芯片的结合。

端侧场景和云端不一样,它对功耗、算力、带宽、成本和实时性都有很高要求。模型能力本身很重要,但如果没有合适的端侧AI芯片支撑,很多能力就很难以低成本、低功耗的方式进入真实设备。

所以我们非常期待接下来一批国产存算一体端侧AI芯片的量产。目前已经有一些相关芯片正在流片,一旦进入规模化应用,就有望在功耗、算力和带宽上提供更有竞争力的端侧 AI 能力。基于这些芯片,端侧应用会迎来更快爆发。

另外,我们认为端侧AI最合理的形态,并不是所有能力都放在端上,也不是完全依赖云端,而是端云协同。

比如,上下文管理应该尽可能放在端上,一些重要、高频、对隐私和实时性要求更高的推理任务,也应该优先在端上完成;而更复杂、更重的任务,则可以交给云端。

在这样的模式下,端侧模型会更自然地进入用户的日常生活。它未必一开始就以一个非常显性的“大模型产品”出现,而是会嵌入到汽车、手机、PC、可穿戴设备、智能家居等具体场景里,变成用户能直接感受到的智能体验。随着芯片、模型和应用生态进一步成熟,端侧模型的落地速度会明显加快,今年我们也会看到大量实际应用出现。

问:国产AI芯片过去更多被用于推理,但大模型训练对软件栈、集群稳定性、通信效率和精度一致性要求更高。站在模型公司的角度看,训练任务迁移到国产芯片上,面壁智能需要集中克服哪些难点?

李大海: 我们现在主要沿着两个方向推进。

第一个方向,是在真实训练任务中与国产芯片厂商持续磨合。 模型公司在训练过程中会遇到很多具体问题,比如算子性能、通信效率、集群稳定性、精度对齐等,这些问题只有在真实大模型训练中才会充分暴露出来。通过不断反馈、调优和验证,模型公司和芯片公司可以一起把国产 AI 软件生态打磨得更成熟。

第二个方向,是在更底层的软件适配上做一些配合。 国产芯片的问题,不只是单块芯片性能怎么样,更大的挑战在于软件栈不够统一。不同芯片有不同的编译、算子、通信和调度体系,模型公司如果每接入一类芯片都要重新适配一遍,成本会很高,效率也很低。

所以我们也会参与一些共性软件生态的工作,比如智源研究院牵头的FlagOS。其意义是希望把一部分重复适配的工作沉淀下来,让不同国产芯片在模型训练和推理时,能有更清晰的接口和协作方式。这项工作对于国产智算生态非常有价值,也在快速发展。

面壁智能本身既是大模型公司,也在算子适配和底层优化上有比较深的积累,所以我们在这两条路径上都有比较多的参与。一方面,我们通过真实模型训练任务帮助国产芯片和软件栈发现问题、解决问题;另一方面,我们也参与到更系统化的国产AI软件生态建设中。

此外,训练迁移到国产芯片上,比推理迁移更复杂。推理主要看吞吐、延迟和成本,训练还要验证数值精度、稳定性和长时间运行能力。

为此,我们用小模型实验预测大模型训练效果,并把华为等国产AI 芯片上的测试结果与英伟达平台对齐,判断训练精度是否可靠。这类测试可以在大规模训练前,提前暴露芯片、算子和软件栈中的底层问题。

问:2026年的上半年,“豆包手机”等产品引发了外界对端侧智能体的关注。你怎么看端侧模型和端侧智能体对人机交互方式的改变?

李大海: 这是一个非常自然发展的方向。

这背后是由端侧模型的分工优势决定的。相比完全依赖云端,端侧模型在隐私保护、实时响应和可靠性上更有优势,因此天然适合承担人机交互任务。因为人和设备之间的交互,对实时性和稳定性的要求非常高。

可以用云游戏来类比。移动互联网时代,很多公司都尝试过云游戏。理论上,云游戏把渲染放在云端,终端就不需要很强的算力,但这个方向一直没有真正大规模跑通。核心原因在于,用户对交互的帧率、延迟和稳定性非常敏感,不希望在没有预期的情况下突然卡顿。

也就是说,很多人会低估交互体验对实时性和可靠性的要求。只有在终端侧,才更有可能满足这种高标准。其实早在 PC 互联网时代,我们就已经看到过这一点的重要性。我最早任职的公司是Google,当时Google很早就发现,响应速度每提升100毫秒,对广告转化率都会产生很大影响。

所以回到豆包手机这类产品,端侧模型和端侧智能体结合,真正值得关注的是它可能带来新的交互层。

能不能做好端侧智能体,不只是看模型能力强不强,而是取决于三个因素的叠加:第一,芯片和算力能承受多大成本;第二,模型在能力、速度、功耗和稳定性上的综合表现;第三,具体场景是否成立。只有这三个圈真正重叠,端侧智能体才能进入大规模应用。

芯片决定能不能跑,模型决定能不能做,场景决定有没有人用。只有这三点重叠,端侧智能体才会走向大规模应用。

03、Agent落地后,更多任务会回到端侧

问:面壁智能已经把低比特量化探索到1.58bit。你怎么看模型量化继续往下压缩的空间?接下来的攻克和突破点主要在哪些方向?

李大海:从目前的技术判断看,1.58bit可能已经接近模型量化的极限了。继续往下压缩,理论空间会越来越小,真正的挑战也不只是把bit数降下来,而是在极高压缩比下,尽可能保持模型能力不出现明显损失。

对我们来说,更关键的是量化损失能不能足够低。模型压缩不是单纯追求参数占用更小,更重要的是在更低存储、更低算力、更低功耗的前提下,仍然保持足够好的推理效果。这也是端侧模型真正落地时最重要的问题之一。

在这方面,面壁智能采用的是从训练阶段就面向低比特量化进行优化的路线,也就是通过QAT,量化感知训练,让模型从训练一开始就持续适应低比特表示,而不是等模型训练完成后再做后处理压缩。

这种方式的好处是,模型从一开始就围绕低比特目标进行优化,可以更好地控制量化带来的性能损失。对面壁来说,极致量化的核心目标不是追求一个更低的数字,而是在接近量化极限的情况下,仍然让模型保持足够可用、足够稳定的能力。

问:这两年端侧模型进步很快。未来Agent的任务,会有多少能在本地完成?端和云之间会形成怎样的关系?

李大海:端云协同一定会扩展端侧模型的能力边界,但它并不意味着所有任务都要放在端上完成。更合理的方式是,把高频、实时、隐私敏感、需要稳定交互的部分尽可能放在端侧;而更复杂、更重的推理和规划任务,则由云端来承担。端和云最终会形成一种分工协作关系。

AI技术变化非常快,模型和Agent的进化速度也非常快。也许今天还做不了的事情,下个月就能做;这个月某个任务还有10%的错误率,再过一段时间可能就降到 1%。所以现在很难用一个静态比例去判断未来有多少 Agent 工作可以在本地闭环完成。

但趋势是明确的:随着端侧模型能力提升、芯片性能增强,以及端云协同架构逐渐成熟,越来越多原本依赖云端的任务会被前移到本地。 尤其是上下文管理、个人数据理解、高频交互和一部分轻量级决策,都会更适合在端侧完成。

从长期来看,Agent会成为一个非常重要的趋势。AI作为新的生产要素,对社会和产业的影响会非常深远。今年可以说是Agent 真正开始进入产业落地的第一年,很多东西还需要摸索,但长期来看,它一定会成为常态。

问:过去一年,面壁智能的端侧模型已经进入汽车、手机、无人机等终端设备。这些场景的落地进展来看,不同设备对端侧模型的能力、功耗、稳定性和交互方式有哪些差异?

李大海: 智能座舱是面壁端侧模型落地的重要场景之一。过去一年,我们在汽车场景中已经实现了量产落地,也获得了车企和用户的正向反馈。

比如吉利银河M9上搭载了相关功能,这个功能需要用户主动开启。从目前看到的车辆数据看,主动开启比例比较高,说明用户在实际使用中对这类座舱智能能力有需求。

从技术上看,座舱场景对端侧模型提出了比较具体的要求:响应要快,交互要稳定,也要能结合车内环境和用户指令完成任务。因此,仅有语言模型能力还不够,还需要多模态、语音交互、流式响应等能力配合。

除了汽车,端侧模型也在进入手机、无人机、潜水器等终端设备。不同设备对模型的要求并不一样,手机更关注功耗和系统体验,汽车更关注稳定性和交互安全,智能硬件则更看重体积、成本和本地响应。

所以我们现在更关注的是,端侧模型在不同设备里到底能承担哪些任务,哪些能力可以稳定运行,哪些场景用户真的会高频使用。端侧模型的落地,最终还是要回到具体设备和具体体验里验证。

本文来自微信公众号“腾讯科技”,作者:李海伦

声明:本文为入驻“火星财经 专栏”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。