AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

个人专栏

2026-03-26热度: 4572

艾伦人工智能研究所（AI2）发布全开源视觉驱动网络代理MolmoWeb，仅通过屏幕截图进行网页导航与操作，参数量仅4B/8B却在WebVoyager等基准测试中逼近OpenAI专有模型，同时开源模型权重及史上最大开放数据集MolmoWebMix，推动可解释、鲁棒的AI代理发展。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

艾伦人工智能研究所（AI2）近日发布了突破性的全开源网络代理 MolmoWeb 。与传统依赖网页底层代码（DOM）的代理不同，MolmoWeb 仅通过读取屏幕截图进行决策，标志着“视觉驱动”网络导航技术的重大飞跃。

MolmoWeb 的运作逻辑非常直观:它捕获当前浏览器窗口的截图，通过视觉分析决定下一步操作（如点击、滚动、翻页），然后执行并重复。这种“所见即所得”的模式使其比传统代理更具鲁棒性，因为网页的视觉布局通常比底层代码更稳定，且其决策过程对人类用户而言完全透明、可解释。

尽管 MolmoWeb 的参数规模仅为4B 和8B，但在性能表现上却展现出“以小博大”的实力:

榜单领跑: 在 WebVoyager 测试中，8B 版本的得分高达 78.2%，不仅在开源模型中名列前茅，更逼近了 OpenAI 的专有模型 o3（79.3%）。
潜力巨大: 研究发现，通过多次运行任务并筛选最优结果，其成功率可进一步跃升至 94.7%。
定位精准: 在 UI 元素定位基准测试中，它甚至超越了 Anthropic 的 Claude3.7。