25

06

星期四

11:38

谷歌主力模型Gemini 3.5 Flash原生支持电脑操控,解锁企业级智能体自动化

据动察 Beating 监测,谷歌将电脑操控 (Computer Use) 功能作为内置工具,直接整合进主力大模型 Gemini 3.5 Flash。 在原生整合前,开发者必须调用专门的 Gemini 2.5 电脑操控模型才能执行代理任务。原生集成后,开发人员与企业用户能够直接通过 Gemini API 或谷歌云 Gemini 企业智能体平台 (Gemini Enterprise Agent Platform,即原 Vertex AI 平台) 让主力模型操控设备,简化了智能体 (Agent) 开发架构。 内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图,进行视觉感知与步骤推理,随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令,用以完成软件持续测试、跨网页数据采集等长流程自动化任务。为了方便调试与审计,模型生成指令时会附带「意图」 (intent) 字段,用以说明每一步操作的逻辑。 针对智能体在真实网络环境中可能遭遇的提示词注入风险,谷歌对模型进行了定向对抗训练,并提供两项可选防护:涉及资金支付、文件删除等不可逆操作时强制引入人工核准;截图中若发现间接注入指令则自动熔断任务。 目前,Browserbase 提供了在线托管演示环境 (gemini.browserbase.com),谷歌官方也同步在 GitHub 开源了名为 computer-use-preview 的参考实现代码。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。