AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

AIBase
个人专栏
热度: 4572

艾伦人工智能研究所(AI2)发布全开源视觉驱动网络代理MolmoWeb,仅通过屏幕截图进行网页导航与操作,参数量仅4B/8B却在WebVoyager等基准测试中逼近OpenAI专有模型,同时开源模型权重及史上最大开放数据集MolmoWebMix,推动可解释、鲁棒的AI代理发展。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

艾伦人工智能研究所(AI2)近日发布了突破性的全开源网络代理 MolmoWeb 。与传统依赖网页底层代码(DOM)的代理不同,MolmoWeb 仅通过读取屏幕截图进行决策,标志着“视觉驱动”网络导航技术的重大飞跃。

核心技术:像人类一样“看”网页

MolmoWeb 的运作逻辑非常直观:它捕获当前浏览器窗口的截图,通过视觉分析决定下一步操作(如点击、滚动、翻页),然后执行并重复。这种“所见即所得”的模式使其比传统代理更具鲁棒性,因为网页的视觉布局通常比底层代码更稳定,且其决策过程对人类用户而言完全透明、可解释。

QQ20260326-092046.jpg

性能飞跃:小模型击败巨头

尽管 MolmoWeb 的参数规模仅为4B 和8B,但在性能表现上却展现出“以小博大”的实力:

  • 榜单领跑:WebVoyager 测试中,8B 版本的得分高达 78.2%,不仅在开源模型中名列前茅,更逼近了 OpenAI 的专有模型 o3(79.3%)。

  • 潜力巨大: 研究发现,通过多次运行任务并筛选最优结果,其成功率可进一步跃升至 94.7%

  • 定位精准: 在 UI 元素定位基准测试中,它甚至超越了 Anthropic 的 Claude3.7。

数据支撑:史上最大的开放数据集

AI2此次不仅开源了模型权重,还贡献了名为 MolmoWebMix 的庞大数据集。该数据集包含:

  • 由人类志愿者完成的 3.6万次真实浏览任务

  • 超过 220万个 屏幕截图-问答对。

  • 通过 GPT-4o 验证的自动化合成数据。实验证明,合成数据在引导智能体寻找“最优路径”方面甚至优于人类轨迹。

QQ20260326-092350.jpg

开源精神与未来挑战

目前,MolmoWeb 已在 Hugging Face GitHub 上通过 Apache2.0协议完全开放。尽管在处理复杂指令、登录验证及法律合规(如服务条款)方面仍面临挑战,但 AI2坚信,只有通过完全的透明和社区协作,才能真正对抗大型科技公司的数据垄断。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。