2024年6月10日(美国时间)苹果公司在WWDC上发布了最新的Apple Intelligence架构,今天我们来对比一下微软在2023年发布的AI Copilot架构与Apple Intelligence架构之间的异同点。
Apple Intelligence架构
苹果声称Apple Intelligence将帮助在苹果在AI领域中制定新的隐私标准,并在其产品中提供以个人上下文为核心的AI应用和架构体系。先让我们来学习一下官方发布的架构图:
架构图中左右分为设备端(On-device)和服务端(Apple silicon servers)
- 基础层(Apple Silicon)
- CPU和GPU: 此架构只有在配备神经处理单元 (NPU) 的最新一代设备上才有可能实现。苹果于在2020年推出了第一款苹果芯片,标志着其开始摆脱英特尔芯片。苹果的定制芯片基于 Arm,与 iPhone 和 iPad 中使用的 A 系列芯片类似,这使得它们与早期 Mac 中使用的英特尔芯片明显不同。经过三年的时间,苹果公司在 2023 年推出了 Apple Silicon Mac Pro,完成了向 Apple Silicon 的过渡。最近发布的 M4 芯片拥有迄今为止最强大的神经引擎,能够实现惊人的每秒 38 万亿次运算 (TOPS)。
- Neural Engine(神经引擎):第一代 Apple 神经引擎 (ANE) 作为苹果2017 年旗舰机型 iPhone X 中 A11 芯片的一部分发布。它在半精度浮点数据格式下的峰值吞吐量为 0.6 万亿次浮点运算 (TFlops) (float16 或 FP16),并且它有效地支持设备上的 ML 功能,例如 Face ID 和 Memoji。到2021年时,第五代 16 核 ANE 的处理能力是原来的 26 倍,即 15.8 TFlops。自 2017 年以来,ANE 的使用量一直在稳步增长,从少数 Apple 应用程序发展到来自 Apple 和开发者社区的众多应用程序。2022 上,Apple 推出了 Transformer 架构的开源参考 PyTorch 实现,为全球开发者提供了一种在 Apple 设备上无缝部署最先进 Transformer 模型的方法。此实现专门针对 Apple 神经引擎 (ANE) 进行了优化,这是一种节能且高吞吐量的引擎,用于在 Apple 芯片上进行 ML 推理。它将帮助开发人员最大限度地减少 ML 推理工作负载对应用内存、应用响应能力和设备电池寿命的影响。增加设备上机器学习部署的采用也将有利于用户隐私,因为推理工作负载的数据保留在设备上,而不是服务器上。
- Secure Enclave(安全飞地): 是集成到Apple片上系统 (SoC) 中的专用安全子系统。 Secure Enclave与主处理器隔离,以提供额外的安全层,即使在应用程序处理器内核受到损害时,也能确保敏感用户数据的安全。Secure Enclave在设备 DRAM 内存的专用区域运行。多层保护将安全区域保护的内存与应用程序处理器隔离。当设备启动时,安全区域引导 ROM 会为内存保护引擎生成随机临时内存保护密钥。每当安全隔离区写入其专用内存区域时,内存保护引擎都会在 Mac XEX (xor-encrypt-xor) 模式下使用 AES 加密内存块,并为该内存块计算基于密码的消息身份验证代码 (CMAC) 身份验证标记。记忆。内存保护引擎将身份验证标签与加密内存一起存储。当安全区域读取内存时,内存保护引擎会验证身份验证标签。如果身份验证标签匹配,内存保护引擎就会解密该内存块。如果标签不匹配,内存保护引擎会向安全区域发出错误信号。发生内存身份验证错误后,Secure Enclave 将停止接受请求,直到系统重新启动。
- 个人智能系统(Personal Intelligence System)
- Semantic Index 语义索引:类似于矢量数据库处理,不同的应用程序中提取数据放到这个语义索引中。语义索引意味着您的所有私人内容(消息、电子邮件、照片、视频、日历事件、屏幕上下文等)都会被处理并可以通过 AI 模型进行查询。
- App Intents Toolbox 意图工具箱:提供了将应用程序的操作和内容与跨平台的系统体验深度集成的功能,包括 Siri、Spotlight、小部件、控件等。手机上所有应用程序提供的功能或工具的列表,以及使其工作所需的其他内容,通过此工具苹果的应用程序可以向所有人开放。
- Private Cloud Compute OS 私有云计算操作系统:确保用户数据仅用于满足请求,并且确保不会被任何人存储或访问。支持端到端加密连接,手机连接到私有云集群的插图强调了对安全通信的关注,其中提示和响应是端到端加密的。采用混合处理方法,设备上和服务器模型的组合提出了一种混合方法,其中基本处理可以在本地完成,以提高速度和效率,而更复杂的任务则卸载到私有云。相当于在云端存了个私人保险箱,包括数据和AI计算。
- Private Cloud extension:私有云计算通过允许访问更大的计算资源来执行更复杂的任务,同时保护用户隐私来扩展此功能。必要时,私有云计算会将请求定向到Apple服务器,仅发送相关数据进行处理,而不存储数据。
- ML Stack 机器学习栈:这一层表示苹果用来处理和分析数据的机器学习框架或工具。
- Orchestration 编排器:当代理运行时,Orchestration接受到用户请求后,将其分解为操作并执行。既适用于生成式的AI任务,通过Agent进行大量操作,也适用于使用 Siri来调度的多步骤的代理任务。
- 大模型:其中一个参数量为3B,可以直接在手机等终端设备上运行(On-device models);另一个是更大的语言模型(Server models),虽然没有明确参数量,性能可以与GPT-4对标。该模型可通过私有云计算获得,并在Apple的服务器上运行。在人类满意度方面:On-Device模型的摘要生成能力强于同类模型Phi-3-mini;真实世界提示方面:On-Device模型性能强于Gemma-7B,而Server大模型性能强于GPT-3.5-Turbo,略逊于GPT-4-Turbo;输出危害方面:On-Device和Server比现有的模型都安全的多,这也符合苹果公司一向谨慎行事的风格;指令遵循方面 (IFEval):Apple On-Device模型的能力都较为领先,Server大模型在指令集精度和提示词准确度方面,略逊于GPT-4-Turbo;写作能力方面:两个模型生成的结果优于其他模型。
- 应用和体验(Apps and experience)
- Apps层代表了设备上的各种应用
- 体验层代表了Siri,写作工具和图片生成工具等将各类App的基础应用能力和集成能力
Microsoft Copilot架构
微软在2023年3月16日,发布了Microsoft 365 Copilot,专为 Microsoft 365 应用程序和服务而设计。它是一款由 AI 支持的生产力工具,可协调大型语言模型 (LLMs)、Microsoft Graph 中的内容以及原来使用的Microsoft 365的生产力软件,例如 Word、Excel、PowerPoint、Outlook、Team 等。Copilot for Microsoft 365使用大模型技术和大量数据集来理解、总结、预测和生成内容,其中也包括GPT4。微软Copilot v1.5版架构的发布时间也是2024年6月10日。
该架构中主要包含的组件有:
- Microsoft 365 apps 也就是微软365中的各种应用,例如Outlook、Word 、Excel、Teams和 PowerPoint。
- Microsoft Copilot (聊天),更多 Office 应用程序可以通过基于图形的聊天 (Copilot Chat) 访问 Copilot,例如Outlook、Word 和 PowerPoint 以及 Teams 也将具有Copilot Chat的能力。可以利用Copilot Chat Canvases/HUBs(聊天画布/集线器)将移动平台与聊天功能集成到一起。
- Microsoft Graph(微软图谱):它包含有关用户、活动和组织数据之间关系的信息。 Microsoft Graph API 将来自客户信号的更多上下文引入提示中,例如来自电子邮件、聊天、文档和会议的信息。
- Microsoft Semantic Index(微软语义索引):语义索引使用Microsoft Graph更好地与个人和组织数据进行交互,基于多个LLMs来解释用户查询并生成复杂、有意义的多语言响应,支持搜索数十亿个向量(特征或属性的数学表示),以帮助用户将组织中的相关且可操作的信息联系起来。
- 大型语言模型 (LLMs):通过自然语言来访问的大模型。
- Microsoft Copilot的架构中包含AI支持的各种插件,这些插件可以充当桥梁,将Copilot连接到各种软件和服务。
Microsoft Copilot的处理过程如下:
- 当用户使用 Microsoft 365,例如例如 Word 或 Excel应用程序的时候,可以向Copilot寻求任务帮助,例如整理电子邮件或创建演示文稿
- 当Copilot收到请求或指令后,像一个指挥者一样,确保请求的每个元素都被理解并完成适当的处理和准备工作。Copilot可以这个请求添加用户的上下文,例如电子邮件、会议和文档中的相关数据。使用复杂的数据图来识别重要的关系和联系。
- 随后,Copilot将请求发送到托管在Azure上的OpenAI 大型语言模型中,大模型也会分析这个请求,理解意图,并制定响应。
- 一旦没有从大语言模型获得应有的响应。 Copilot在“后处理”阶段可以再次查询Microsoft Graph和语义索引。同时也会审查响应的安全性和适当性,并且不会侵犯用户或我们任何同事的任何隐私权。
两个架构的异同点
综上所述,从以下七个方面来对比以上两个架构的异同点:
- 关于处理过程:Apple和Microsoft的架构具有从应用(Apps)到语义索引(Semantic Index)再到大模型(LLMs)的完整处理过程,包括前处理和后处理,但Microsoft语义索引是基于Microsoft Graph,而Apple没有提到技术细节。
- 关于大模型:Apple主要采用设备端和服务端的自建大模型和第三方大模型三折相互辅助的方式,再通过编排器(Orchestration)相互整合各类大模型资源,而Microsoft主要依赖于云端的Open AI的GPT大模型,其处理能力更强,但缺乏更高的架构弹性。
- 关于生态集成:Apple擅长与它自己的生态系统无缝集成,确保所有设备上的统一用户体验,同时在设备上处理优先考虑用户隐私,还可以调度大量的第三方应用。相反,Microsoft Copilot集成到Microsoft 365中并与各种操作系统兼容,利用基于云的处理来实现强大的AI功能,通过插件的方式与第三方集成,无法做到完整的工作流串接。
- 关于算力资源:Apple利用Apple Silicon芯片中的神经引擎,针对 Apple 硬件上的性能进行了优化。这种优化可确保高效运行,同时在云端也提供了计算资源,确保架构可用性。 Microsoft Copilot 需要大量的计算能力,需要依赖于云基础设施,虽然会占用更多资源,但可为企业使用提供强大的性能。
- 关于用户隐私:Apple 始终优先考虑用户隐私,Apple AI 也不例外。由于非常重视数据隐私,许多 AI进程在设备上运行,并提供独立的计算资源和存储资源,确保用户数据保持安全。 Microsoft Copilot 专为企业级安全而设计,融合了 Microsoft 全面的安全协议来保护企业数据,通过安全的云服务管理和处理数据,更偏向于传统应用。
- 关于部署架构:Apple是基于本地设备,服务器和云端三层动态架构,在服务器端也构建独立的Private Cloud Compute,而Microsoft主要是基于云架构下所租户设计的AI架构,更偏重于传统的Saas服务方式。
- 关于服务对象:Apple更偏重C端用户的使用和体验,理论上B端也参考此架构,而Microsoft偏向于B端用户。
总之,从两家公司长远的AI发展来看,还要依赖于很多方面的竞争,包括资金、人才和市场。如果本次我们只是从架构方面来讨论二者之间的差异性,看起来Apple这次发布的新架构还是明显优于Microsoft去年发布的Copilot架构。