Hassabis狂赞，谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

个人专栏

2026-05-15热度: 6643

Google DeepMind推出由Gemini驱动的AI增强型鼠标指针原型，实现‘指哪打哪’的自然交互：光标悬停即理解上下文，结合语音、视觉与语义识别，无需手动复制粘贴或编写提示词，直接通过指向和口语指令完成编辑、搜索等操作，标志着人机交互从‘人主动表达’迈向‘机器主动理解’的新范式。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

那个陪了你50年、从未改变过的鼠标指针，要长出大脑了。

自1970年代诞生以来，鼠标指针几乎没有进化过。它出现在每一个网站、每一份文档、每一套工作流程里，却从未真正理解过你在做什么。

近日，Google DeepMind发布研究博客，展示由Gemini驱动的实验性原型「AI-enabled pointer」，并在Google AI Studio开放两个实验Demo。

人机交互

负责这个项目的研究员Adrien Baranes和Rob Marchant在官方博客里写道：「我们正在开发更无缝、更直观的与AI协作的方式。」

人机交互

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis更是亲自发帖，称这次体验「相当神奇」。

人机交互

鼠标的图标没变，但箭头背后的逻辑变了：不再只知道你指向哪里，而是开始理解你想干什么。

目前，这个原型已经可以在Google AI Studio中体验，已开放两个Demo：编辑图片（AI-Pointer: Create）和地图找地点（AI-Pointer: Find）。

人机交互

「AI-Pointer: Create」入口：https://aistudio.google.com/apps/bundled/ai-pointer-create

AI应该来找你，而不是你去找AI

你每天浪费多少时间在「解释上下文」？

想一下这个你每天都在重复做的场景：

打开ChatGPT或者Gemini等AI工具的对话窗口；切回你正在看的网页或文档，选中那段你想分析的内容，复制；切回AI窗口，粘贴。再用一两句话解释你要什么。等待。拿到结果；再切回去执行……

每一次「切窗口→复制→解释→等待→切回来」，都是一次认知中断。

你在AI那里花的大量时间，其实并没有用在真正的问题上，而是用在了「告诉AI你在看什么」。

DeepMind对于这个问题看得很准：

通常，AI工具住在自己的窗口里，用户需要把自己的世界拖进去。我们想要的恰恰相反：AI应该来找你，而不是你去找AI。

这句话，点透了过去两年AI交互模式最核心的结构性缺陷。

不用提示词

指着说AI就懂

AI-enabled pointer要解决的，正是这类摩擦。Adrien认为这个项目的核心命题只有一个：

如何构建一个能真正理解流动用户意图的系统。

这背后有四个设计原则，是这套系统的骨架，共同回答一个问题：怎么让AI读懂你的意图，而不需要你花力气解释。

第一个原则叫「Maintain the flow」，保持流畅。

按DeepMind的设计目标，AI能力不应把用户带离当前应用，而应尽可能出现在用户正在工作的上下文中。指着一份PDF说「给我一个摘要，直接可以粘进邮件的那种」，AI完成，你继续。

第二个原则叫「Show and tell」，指给它看。现在用AI，你需要写一段详细的提示词，描述你要处理的内容是什么、长什么样、上下文是什么。

AI-enabled pointer把这一步省掉了。光标悬停在哪里，Gemini就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西，因为AI已经看到了。

第三个原则，是DeepMind最喜欢强调的一个：「Embrace the power of This and That」，拥抱「这个」和「那个」的力量。

想想人和人之间怎么协作。你不会跟同事说「请将第三行第二列的数值乘以二并更新到对应的汇总表格里」。你会说「这个数字，改成两倍，更新到那里」，然后用手指一指。

AI-enabled pointer要让人机协作变得像人与人协作一样自然。技术实现上，可以理解为，系统不再只解析语音里的文字，而是把「this」「that」「here」「there」这类指代词，与光标或手势所指向的视觉和语义上下文关联起来。

所以，当用户说「把这个便签改成橙色」时，「这个」不再只是一个模糊代词，而会被系统结合当前指向的位置、对象和上下文来理解。Gemini拿到的也不只是字面上的一句话，而是由语音、指向和屏幕内容共同构成的意图。

提示词的本质一直都不是文字，而是意图。现在，意图终于可以用最短的方式传达了。

更有意思的是，「指向」并非只有鼠标一种方式。演示里，Adrien用的是头部追踪：头转向哪里，AI注意力就跟到哪里。语音、文字、图像理解，全部同时在线。

第四个原则最有技术含量：「Turn pixels into actionable entities」，让像素变成可操作的实体。

过去50年，光标只知道你指的是哪里，却看不懂你指的是什么，AI-enabled pointer要改变这件事。

你悬停的那张图里有一栋建筑，AI识别出「这是一个地点」，于是「给我导航」成了一个可以直接触发的操作；

你拍下一张手写便条，AI看懂了上面的字，便条自动变成了一份可编辑的待办清单；

你在旅游视频里暂停了一帧，画面里那家看起来不错的餐厅，直接可以弹出订位链接。

演示里还有一个细节让人印象很深：Adrien指着一份餐厅菜单，再指着另一张风格参考图，说「用这张图的风格，帮我把这份菜单画出来」。

Gemini同时读懂了菜单的内容和参考图的视觉风格，生成了一张融合两者的新图。这不是两步操作，是一句话、两个手势，完成的事。

像素第一次有了语义。

从概念到落地

DeepMind并没有停在概念层面。

Google表示，相关交互原则已开始进入产品：在Chrome中，用户可以用指针指向/选择网页中的内容，并向Gemini提问。

Googlebook上的Magic Pointer已被Google列为即将推出的系统级能力，首批Googlebook设备计划于今年秋季上市。

当然，从演示到日常可用，还有一段路要走。

识别准确率、跨应用兼容性、响应速度，都需要在真实的复杂桌面环境里经历打磨。

还有一个问题值得认真对待：AI-enabled pointer需要持续理解你的屏幕内容，数据如何采集、如何存储、流向哪里，DeepMind目前尚未详细说明。

这些并非障碍，而是一项新交互范式从实验室走向大众必须经历的过程。

每一项改变交互方式的技术，都经历过这个阶段。触屏手机在第一代iPhone发布时，也没有人敢保证它能取代键盘。

键盘1973，鼠标1984，触屏2007

下一代交互在2026

把这只指针放回50年人机交互史的时间线上，它的意义会变得很清楚。

1973年，Xerox Alto把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。

1984年，Macintosh让鼠标与图形界面进入大众视野，人开始用「指」图标完成操作。

2007年，iPhone让手指直接成为主要输入方式，触屏成为移动计算的核心交互。

每一次跃迁，背后都是同一件事：机器学会了更多，人需要学的就变少了。

2022年之后的提示词框是另一条线。

人把意图翻译成自然语言，递给一个对话框，再等机器返回答案。表达带宽变宽了，但表达环节本身没消失。你还是要打字、描述。

2026年这只指针，试图压缩的是「解释上下文」这一步，而不是完全消灭表达本身。

2026年这只指针，试图压缩的是「解释上下文」这一步。

手势+语音+语义理解同时到位，意图的传达方式从「精确描述」变成了「自然指向」：人还是要表达，只是再也不用费力解释「我在看什么」了。

人机交互

前四代交互都是「人主动表达」。这一代第一次是「机器主动理解」。手势+语音+语义理解同时到位，意图的传达方式从「精确描述」变成了「自然指向」。提示词工程在这个范式中几乎不再存在。

Adrien在视频结尾描述了他想象中的未来：

一种新型操作系统。AI主动呈现我可能感兴趣的内容，我用指向回应它，我们共享注意力，共享画布，就像和另一个人一起工作。

AI交互的终点，并非一个更聪明的搜索框，而是一个真正能和你协作的伙伴。

最好用的工具，往往是你忘记它存在的那种。

鼠标陪了人类50年。下一个50年，它或许会真正开始理解你。

参考资料：

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

本文来自微信公众号“新智元”，作者：新智元，编辑：元宇

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:人机交互 Google DeepMind Gemini

24H热门新闻

暂无内容

7x24H 快讯

1分钟前

数据：过去 24 小时全网爆仓 4.52 亿美元，多单爆仓 3.67 亿美元，空单爆仓 8,509.1 万美元

4分钟前

交易员：土耳其央行本周购买100亿美元外汇

16分钟前

前以太坊基金会成员：以太坊核心开发可能在 3 至 9 个月内面临资金危机

1小时前

数据：Hyperliquid 平台鲸鱼当前持仓 41.35 亿美元，多空持仓比为 1.04

1小时前

瑞士宣布比尔根山美伊会谈已取消

1小时前

以色列内政部长：应该摧毁整个黎巴嫩

1小时前

连恩：很难说我们不应该加息

1小时前

比特币于2小时前在高度954352处挖出空区块

Hassabis狂赞，谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

AI应该来找你，而不是你去找AI

不用提示词

指着说AI就懂

从概念到落地

键盘1973，鼠标1984，触屏2007

下一代交互在2026

推广

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

Hassabis狂赞，谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

AI应该来找你，而不是你去找AI

不用提示词

指着说AI就懂

从概念到落地

键盘1973，鼠标1984，触屏2007

下一代交互在2026

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作