

AI语音输入技术取得突破性进展,微信、豆包、千问等头部互联网平台纷纷推出独立语音输入法APP,聚焦语音识别准确率、实时转写、口语规整与上下文理解,推动输入法从功能叠加转向体验重构,语音输入正成为离用户意图最近的高频入口。
上周,《读佳》独家报道了阿里千问团队即将推出一款手机输入法,不同于之前集成在千问 PC 端的桌面输入法组件,这次的千问输入法将是一个独立的手机 APP。
BAT(字节跳动、阿里巴巴、腾讯)都凑齐了。
微信输入法从两年前开始拥抱 AI,今年更是围绕 AI 语音输入进行了多轮重大更新。核心围绕语音输入的豆包输入法在去年底率先上线手机端,半年后又顺势推出桌面端。
至于千问,上个月刚在千问 PC 端上线 AI 语音输入法,现在推出手机端也在情理之中,而且不用猜,产品也是核心围绕「语音输入」。

图片来源:千问
而互联网巨头,不,应该说 AI 巨头对输入法——尤其是对「语音输入」的重视已经是司马昭之心,路人皆知。
很多人可能会疑惑,输入法早就是一个成熟到不能再成熟的品类,九键、26 键、双拼、五笔、手写,该有的基本都有,搜狗、讯飞、百度等老玩家也经营多年。大厂真有必要重新做一遍吗?
答案当然是有。
两年前,雷科技写过一篇《纷纷接入大模型,输入法讲起了 AI 新故事》,彼时各大输入法都在接入大模型,进行各种 AI 化尝试,塞入大量 Chatbot 上已有 AI 功能,相当简单粗暴。
说实话,那些功能大部分都是在 FOMO 情绪下的盲目上马,至少从雷科技编辑、周边朋友的反馈来看,用户并不想使用一个塞满功能的输入法,不论是在桌面还是手机上。

图片来源:雷科技
但这一波「语音输入」更有点返璞归真,不再折腾各种花里胡哨的功能,而是回到「输入」方式和体验上,重新用 AI 将输入法再造一遍。
必须要说的是,一年之前,我很少用语音输入。
不是我不想用,毕竟说话肯定是比打字更轻松的一种输入方式,尤其是在手机上。而究其根本,问题主要出在识别效果。说一句话,错几个字;碰到不太标准的普通话、专有名词或中英文混说,结果更容易跑偏。
结果就是,我原本想少打几个字,最后却要盯着屏幕逐句检查,再移动光标修改。嘴上省下来的力气,又被手动纠错拿走了。这种体验特别容易劝退人。
简言之,语音输入只要错得足够频繁,用户就会重新拿起键盘,因为打字虽然慢,至少结果相对可控。
但现在的情况变了。一方面是 AI 技术带来的变化,更准确地说是语音识别和语言模型的进步,很多豆包 APP 用户应该很早就会体会到,语音输入已经完全可以满足 AI 交互的输入要求。
不只是豆包输入法。事实上,我最常用的手机/桌面输入法还是微信输入法,原因先按下不表,重点从去年底 iOS/Android 端的 3.0.0 更新开始,微信输入法基本都在围绕「语音输入」进行优化迭代,又是全面升级语音输入大模型、提升识别能力,又是优化语音输入体验。
在最近一轮更新中,微信输入法全平台版本再次升级了语音输入大模型,也支持自动去掉说话时的口水词、智能加标点/分段等特性。

图片来源:微信
雷科技读者可能之前也看到了一篇《语音输入法大横评:豆包/千问/搜狗/Typeless谁才是「最强嘴替」?》,我们对豆包输入法、千问、搜狗输入法和 Typeless 四款桌面端 AI 语音输入工具做了横评,这里不再赘述。
测试中,豆包采用实时转写,基本能做到边说边出字,前面暂时识别错误的内容还会随着后文补充被重新修正。千问的输出速度慢一些,短文本往往需要等待 3 到 4 秒,长文本等待时间会增加到 5 到 6 秒,但准确率、自然断句和口语规整表现不错。
但无论是哪一款,整体的语音输入准确性都有了大幅的进步,并且覆盖桌面端和手机端。

图片来源:雷科技
效果也很明显,过去半年我在室外、家里很多时候就是使用输入法进行语音输入。从我个人的使用来看,即便我的普通话并不标准,大部分内容依然能够准确识别,偶尔还是会有错误识别需要修改,但频率已经低到不会打断思路。
总结下,大模型补上了关键的基础。以前的语音输入更像听写员,目标是把声音转成文字。现在的 AI 输入法开始理解整句话。它会根据上下文纠正同音字,自动补标点、分段,去掉「嗯」「啊」「那个」等口头语,还会处理说话时的重复和自我修正。用户说出来的是一团带着口癖的原始想法,屏幕上出现的已经是一段可以直接发送的文字。
这一下,差距就出来了。
另一方面,在 AI 技术进步的基础上,语音输入优势还是太诱人了,最直接的就是输入负担的降低。
回想下我们日常打字,往往需要看键盘、选字、处理错别字,脑子里的想法要经过手指再落到屏幕上。相比之下,说话更接近日常交流,人想到哪里就能讲到哪里。尤其在户外走路时,这种差距会被迅速放大。我可以看着前面的路继续输入,不需要一直低头盯着屏幕,心理上也少了很多担心。

图片来源:雷科技
效率优势也早有研究验证。斯坦福大学、百度等研究团队 2016 年在实验室条件下比较手机语音和键盘输入,普通话语音录入速度约为每分钟 123 个词,拼音键盘约为 43 个词,前者接近后者的 2.9 倍。当然,实验室里的短文本不能直接代表地铁、街道和办公室等真实环境,但它至少解释了语音输入的天然上限——只要识别足够准,人说话通常比在手机上敲字快得多。
此外,语音输入(文字)比起纯语音对接收端更「友好」,不只是微信好友,还有备忘录内容的回看,各种 APP 和网站,以及 AI 交互的输入等。需要特别指出的是,尤其是相对复杂的输入往往需要我们停下、思考,基于前文继续输入,纯语音的效率和体验远不如语音输入这种交互形式。
再有,前文也提到了即便有了很大的提升,不管打字还是语音输入都不可避免会有一些错误出现,但都能比较方便地进行修改。
虽然很多时候豆包会被调侃只剩下情绪价值,但不可否认的是,豆包在中文语音输入、输出上的优势非常大,在 BAT 三家中也更早将这种优势转化到输入法的「语音输入」上,在去年 11 月推出了豆包输入法。
不过真具体到「手机输入法」的产品体验,豆包输入法作为新兵还是有不少的改进空间。
尤其对比微信输入法这类比较成熟的输入法产品,豆包输入法虽然基础功能、设置选项都大差不差,都有联想词推荐、剪贴板、验证码填充等功能,甚至还支持双拼,也推出了桌面和手机双端,但却缺少了跨设备粘贴同步(包括个人词库、图片),还有换机助手等功能。
要知道,豆包输入法目前既没有微信输入法的匹配码机制,也没有其他主流输入法的账号体系。
再加上微信输入法本身也很出色的语音输入表现,所以我仍然主用微信输入法。
AI 不是也不应该成为我们选择产品的唯一因素。反过来,我也希望看到接下来上线的千问输入法 APP 会有很好的产品体验。一方面,千问在电脑端已经证明它在语音输入上也有很强的优势,如果这些能力原样来到手机,千问输入法至少会有一张不错的入场券。
但一款每天被调用数百次的手机输入法,不能只靠模型秀肌肉。手机和电脑的词库、常用语、剪贴板能否同步,语音启动能不能足够快,是否支持实时转写;长文本整理的力度能否让用户选择,避免 AI 过度改写原意,以及弱网和离线状态下还能不能稳定工作。
在 AI 语音输入之外,这些也在很大程度上影响今天输入法的体验。就像乔布斯说过的那句,「你必须先从用户出发,在反推需要什么技术。」技术可以提供可能性,但最终的用户体验,还是要回到产品设计和细节上。
前几年的输入法 AI 化就恰恰相当,很多产品只是从技术出发,很容易把问答、翻译、写作、搜索和智能体一股脑地塞进键盘。但输入法的使用逻辑和 AI 聊天工具不同,用户每一次唤起键盘,大多只想快速写完一句话,能力可以很多,交互必须很轻。否则,「全能」很容易变成一种臃肿。
输入法终究是一件基础工具,有用和好用之间加还有很多的设计和细节。
字节、阿里、腾讯为什么都来做输入法?
从用户的角度看并不难理解。对我们每个人来说,输入法都太近了。无论在微信聊天、淘宝搜索、钉钉办公、浏览器搜索、小红书评论,还是文档写作,只要用户需要把想法交给手机,输入法就有机会出现。它不属于某一个 APP,却能跨过几乎所有 APP,也是调用频率最高的系统入口之一。
而大模型的加入,让输入法能够处理更靠近意图的一层:用户想说什么、该怎么说、这句话是否需要翻译、润色、总结。语音的表达形式,更让这个入口获得了更多原始信息,能接触语速、停顿。
对于字节,豆包输入法可以把豆包的模型能力带出豆包 APP,进入聊天、搜索和办公等更多场景。对于腾讯,微信输入法连接微信社交、搜狗输入法积累和混元模型,既有现成用户,也有最丰富的中文交流场景。而对于阿里,千问输入法有机会穿过电商、支付、地图、办公和内容创作,把千问从一个需要主动打开的 AI 助手,变成随时可以调用的底层能力。
而从我自己的使用来看,语音输入已经跨过了「偶尔应急」的阶段,但它还替代不了所有键盘场景,办公室里不方便开口,密码和精确编辑仍然更适合手动操作。至于在走路、快速回复和整理想法时,我越来越不愿意「古法手打」。
本文来自微信公众号“雷科技”,作者:雷科技