Hassabis狂赞,谷歌爆改50年鼠标,指哪AI打哪,连提示词都省了

新智元
个人专栏
热度: 5537

Google DeepMind推出由Gemini驱动的AI增强型鼠标指针原型,实现‘指哪打哪’的自然交互:光标悬停即理解上下文,结合语音、视觉与语义识别,无需手动复制粘贴或编写提示词,直接通过指向和口语指令完成编辑、搜索等操作,标志着人机交互从‘人主动表达’迈向‘机器主动理解’的新范式。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

那个陪了你50年、从未改变过的鼠标指针,要长出大脑了。

自1970年代诞生以来,鼠标指针几乎没有进化过。它出现在每一个网站、每一份文档、每一套工作流程里,却从未真正理解过你在做什么。

近日,Google DeepMind发布研究博客,展示由Gemini驱动的实验性原型「AI-enabled pointer」,并在Google AI Studio开放两个实验Demo。

人机交互

负责这个项目的研究员Adrien Baranes和Rob Marchant在官方博客里写道:「我们正在开发更无缝、更直观的与AI协作的方式。」

人机交互

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis更是亲自发帖,称这次体验「相当神奇」。

人机交互

鼠标的图标没变,但箭头背后的逻辑变了:不再只知道你指向哪里,而是开始理解你想干什么。

目前,这个原型已经可以在Google AI Studio中体验,已开放两个Demo:编辑图片(AI-Pointer: Create)和地图找地点(AI-Pointer: Find)。

人机交互

「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create

AI应该来找你,而不是你去找AI

你每天浪费多少时间在「解释上下文」?

想一下这个你每天都在重复做的场景:

打开ChatGPT或者Gemini等AI工具的对话窗口;切回你正在看的网页或文档,选中那段你想分析的内容,复制;切回AI窗口,粘贴。再用一两句话解释你要什么。等待。拿到结果;再切回去执行……

每一次「切窗口→复制→解释→等待→切回来」,都是一次认知中断。

你在AI那里花的大量时间,其实并没有用在真正的问题上,而是用在了「告诉AI你在看什么」。

DeepMind对于这个问题看得很准:

通常,AI工具住在自己的窗口里,用户需要把自己的世界拖进去。我们想要的恰恰相反:AI应该来找你,而不是你去找AI。

这句话,点透了过去两年AI交互模式最核心的结构性缺陷。

不用提示词

指着说AI就懂

AI-enabled pointer要解决的,正是这类摩擦。Adrien认为这个项目的核心命题只有一个:

如何构建一个能真正理解流动用户意图的系统。

这背后有四个设计原则,是这套系统的骨架,共同回答一个问题:怎么让AI读懂你的意图,而不需要你花力气解释。

第一个原则叫「Maintain the flow」,保持流畅。

按DeepMind的设计目标,AI能力不应把用户带离当前应用,而应尽可能出现在用户正在工作的上下文中。指着一份PDF说「给我一个摘要,直接可以粘进邮件的那种」,AI完成,你继续。

第二个原则叫「Show and tell」,指给它看。现在用AI,你需要写一段详细的提示词,描述你要处理的内容是什么、长什么样、上下文是什么。

AI-enabled pointer把这一步省掉了。光标悬停在哪里,Gemini就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西,因为AI已经看到了。

第三个原则,是DeepMind最喜欢强调的一个:「Embrace the power of This and That」,拥抱「这个」和「那个」的力量。

想想人和人之间怎么协作。你不会跟同事说「请将第三行第二列的数值乘以二并更新到对应的汇总表格里」。你会说「这个数字,改成两倍,更新到那里」,然后用手指一指。

AI-enabled pointer要让人机协作变得像人与人协作一样自然。技术实现上,可以理解为,系统不再只解析语音里的文字,而是把「this」「that」「here」「there」这类指代词,与光标或手势所指向的视觉和语义上下文关联起来。

所以,当用户说「把这个便签改成橙色」时,「这个」不再只是一个模糊代词,而会被系统结合当前指向的位置、对象和上下文来理解。Gemini拿到的也不只是字面上的一句话,而是由语音、指向和屏幕内容共同构成的意图。

提示词的本质一直都不是文字,而是意图。现在,意图终于可以用最短的方式传达了。

更有意思的是,「指向」并非只有鼠标一种方式。演示里,Adrien用的是头部追踪:头转向哪里,AI注意力就跟到哪里。语音、文字、图像理解,全部同时在线。

第四个原则最有技术含量:「Turn pixels into actionable entities」,让像素变成可操作的实体。

过去50年,光标只知道你指的是哪里,却看不懂你指的是什么,AI-enabled pointer要改变这件事。

你悬停的那张图里有一栋建筑,AI识别出「这是一个地点」,于是「给我导航」成了一个可以直接触发的操作;

你拍下一张手写便条,AI看懂了上面的字,便条自动变成了一份可编辑的待办清单;

你在旅游视频里暂停了一帧,画面里那家看起来不错的餐厅,直接可以弹出订位链接。

演示里还有一个细节让人印象很深:Adrien指着一份餐厅菜单,再指着另一张风格参考图,说「用这张图的风格,帮我把这份菜单画出来」。

Gemini同时读懂了菜单的内容和参考图的视觉风格,生成了一张融合两者的新图。这不是两步操作,是一句话、两个手势,完成的事。

像素第一次有了语义。

从概念到落地

DeepMind并没有停在概念层面。

Google表示,相关交互原则已开始进入产品:在Chrome中,用户可以用指针指向/选择网页中的内容,并向Gemini提问。

Googlebook上的Magic Pointer已被Google列为即将推出的系统级能力,首批Googlebook设备计划于今年秋季上市。

当然,从演示到日常可用,还有一段路要走。

识别准确率、跨应用兼容性、响应速度,都需要在真实的复杂桌面环境里经历打磨。

还有一个问题值得认真对待:AI-enabled pointer需要持续理解你的屏幕内容,数据如何采集、如何存储、流向哪里,DeepMind目前尚未详细说明。

这些并非障碍,而是一项新交互范式从实验室走向大众必须经历的过程。

每一项改变交互方式的技术,都经历过这个阶段。触屏手机在第一代iPhone发布时,也没有人敢保证它能取代键盘。

键盘1973,鼠标1984,触屏2007

下一代交互在2026

把这只指针放回50年人机交互史的时间线上,它的意义会变得很清楚。

1973年,Xerox Alto把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。

1984年,Macintosh让鼠标与图形界面进入大众视野,人开始用「指」图标完成操作。

2007年,iPhone让手指直接成为主要输入方式,触屏成为移动计算的核心交互。

每一次跃迁,背后都是同一件事:机器学会了更多,人需要学的就变少了。

2022年之后的提示词框是另一条线。

人把意图翻译成自然语言,递给一个对话框,再等机器返回答案。表达带宽变宽了,但表达环节本身没消失。你还是要打字、描述。

2026年这只指针,试图压缩的是「解释上下文」这一步,而不是完全消灭表达本身。

2026年这只指针,试图压缩的是「解释上下文」这一步。

手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」:人还是要表达,只是再也不用费力解释「我在看什么」了。

人机交互

前四代交互都是「人主动表达」。这一代第一次是「机器主动理解」。手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」。提示词工程在这个范式中几乎不再存在。

Adrien在视频结尾描述了他想象中的未来:

一种新型操作系统。AI主动呈现我可能感兴趣的内容,我用指向回应它,我们共享注意力,共享画布,就像和另一个人一起工作。

AI交互的终点,并非一个更聪明的搜索框,而是一个真正能和你协作的伙伴。

最好用的工具,往往是你忘记它存在的那种。

鼠标陪了人类50年。下一个50年,它或许会真正开始理解你。

参考资料:

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

本文来自微信公众号“新智元”,作者:新智元,编辑:元宇

声明:本文为入驻“火星财经 专栏”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。