输入法成AI新风口，微信/豆包/千问聚齐，用嘴打字时代来临

雷科技

个人专栏

2026-06-24热度: 5392

AI语音输入技术取得突破性进展，微信、豆包、千问等头部互联网平台纷纷推出独立语音输入法APP，聚焦语音识别准确率、实时转写、口语规整与上下文理解，推动输入法从功能叠加转向体验重构，语音输入正成为离用户意图最近的高频入口。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

上周，《读佳》独家报道了阿里千问团队即将推出一款手机输入法，不同于之前集成在千问 PC 端的桌面输入法组件，这次的千问输入法将是一个独立的手机 APP。

BAT（字节跳动、阿里巴巴、腾讯）都凑齐了。

微信输入法从两年前开始拥抱 AI，今年更是围绕 AI 语音输入进行了多轮重大更新。核心围绕语音输入的豆包输入法在去年底率先上线手机端，半年后又顺势推出桌面端。

至于千问，上个月刚在千问 PC 端上线 AI 语音输入法，现在推出手机端也在情理之中，而且不用猜，产品也是核心围绕「语音输入」。

微信输入法

图片来源：千问

而互联网巨头，不，应该说 AI 巨头对输入法——尤其是对「语音输入」的重视已经是司马昭之心，路人皆知。

很多人可能会疑惑，输入法早就是一个成熟到不能再成熟的品类，九键、26 键、双拼、五笔、手写，该有的基本都有，搜狗、讯飞、百度等老玩家也经营多年。大厂真有必要重新做一遍吗？

答案当然是有。

两年前，雷科技写过一篇《纷纷接入大模型，输入法讲起了 AI 新故事》，彼时各大输入法都在接入大模型，进行各种 AI 化尝试，塞入大量 Chatbot 上已有 AI 功能，相当简单粗暴。

说实话，那些功能大部分都是在 FOMO 情绪下的盲目上马，至少从雷科技编辑、周边朋友的反馈来看，用户并不想使用一个塞满功能的输入法，不论是在桌面还是手机上。

微信输入法

图片来源：雷科技

但这一波「语音输入」更有点返璞归真，不再折腾各种花里胡哨的功能，而是回到「输入」方式和体验上，重新用 AI 将输入法再造一遍。

AI 语音输入全面进步，用嘴打字时代来了

必须要说的是，一年之前，我很少用语音输入。

不是我不想用，毕竟说话肯定是比打字更轻松的一种输入方式，尤其是在手机上。而究其根本，问题主要出在识别效果。说一句话，错几个字；碰到不太标准的普通话、专有名词或中英文混说，结果更容易跑偏。

结果就是，我原本想少打几个字，最后却要盯着屏幕逐句检查，再移动光标修改。嘴上省下来的力气，又被手动纠错拿走了。这种体验特别容易劝退人。

简言之，语音输入只要错得足够频繁，用户就会重新拿起键盘，因为打字虽然慢，至少结果相对可控。

但现在的情况变了。一方面是 AI 技术带来的变化，更准确地说是语音识别和语言模型的进步，很多豆包 APP 用户应该很早就会体会到，语音输入已经完全可以满足 AI 交互的输入要求。

不只是豆包输入法。事实上，我最常用的手机/桌面输入法还是微信输入法，原因先按下不表，重点从去年底 iOS/Android 端的 3.0.0 更新开始，微信输入法基本都在围绕「语音输入」进行优化迭代，又是全面升级语音输入大模型、提升识别能力，又是优化语音输入体验。

在最近一轮更新中，微信输入法全平台版本再次升级了语音输入大模型，也支持自动去掉说话时的口水词、智能加标点/分段等特性。

微信输入法

图片来源：微信

雷科技读者可能之前也看到了一篇《语音输入法大横评：豆包/千问/搜狗/Typeless谁才是「最强嘴替」？》，我们对豆包输入法、千问、搜狗输入法和 Typeless 四款桌面端 AI 语音输入工具做了横评，这里不再赘述。

测试中，豆包采用实时转写，基本能做到边说边出字，前面暂时识别错误的内容还会随着后文补充被重新修正。千问的输出速度慢一些，短文本往往需要等待 3 到 4 秒，长文本等待时间会增加到 5 到 6 秒，但准确率、自然断句和口语规整表现不错。

但无论是哪一款，整体的语音输入准确性都有了大幅的进步，并且覆盖桌面端和手机端。

微信输入法

图片来源：雷科技

效果也很明显，过去半年我在室外、家里很多时候就是使用输入法进行语音输入。从我个人的使用来看，即便我的普通话并不标准，大部分内容依然能够准确识别，偶尔还是会有错误识别需要修改，但频率已经低到不会打断思路。

总结下，大模型补上了关键的基础。以前的语音输入更像听写员，目标是把声音转成文字。现在的 AI 输入法开始理解整句话。它会根据上下文纠正同音字，自动补标点、分段，去掉「嗯」「啊」「那个」等口头语，还会处理说话时的重复和自我修正。用户说出来的是一团带着口癖的原始想法，屏幕上出现的已经是一段可以直接发送的文字。

这一下，差距就出来了。

另一方面，在 AI 技术进步的基础上，语音输入优势还是太诱人了，最直接的就是输入负担的降低。

回想下我们日常打字，往往需要看键盘、选字、处理错别字，脑子里的想法要经过手指再落到屏幕上。相比之下，说话更接近日常交流，人想到哪里就能讲到哪里。尤其在户外走路时，这种差距会被迅速放大。我可以看着前面的路继续输入，不需要一直低头盯着屏幕，心理上也少了很多担心。

微信输入法

图片来源：雷科技

效率优势也早有研究验证。斯坦福大学、百度等研究团队 2016 年在实验室条件下比较手机语音和键盘输入，普通话语音录入速度约为每分钟 123 个词，拼音键盘约为 43 个词，前者接近后者的 2.9 倍。当然，实验室里的短文本不能直接代表地铁、街道和办公室等真实环境，但它至少解释了语音输入的天然上限——只要识别足够准，人说话通常比在手机上敲字快得多。

此外，语音输入（文字）比起纯语音对接收端更「友好」，不只是微信好友，还有备忘录内容的回看，各种 APP 和网站，以及 AI 交互的输入等。需要特别指出的是，尤其是相对复杂的输入往往需要我们停下、思考，基于前文继续输入，纯语音的效率和体验远不如语音输入这种交互形式。

再有，前文也提到了即便有了很大的提升，不管打字还是语音输入都不可避免会有一些错误出现，但都能比较方便地进行修改。

能力可以很多，交互必须很轻

虽然很多时候豆包会被调侃只剩下情绪价值，但不可否认的是，豆包在中文语音输入、输出上的优势非常大，在 BAT 三家中也更早将这种优势转化到输入法的「语音输入」上，在去年 11 月推出了豆包输入法。

不过真具体到「手机输入法」的产品体验，豆包输入法作为新兵还是有不少的改进空间。

尤其对比微信输入法这类比较成熟的输入法产品，豆包输入法虽然基础功能、设置选项都大差不差，都有联想词推荐、剪贴板、验证码填充等功能，甚至还支持双拼，也推出了桌面和手机双端，但却缺少了跨设备粘贴同步（包括个人词库、图片），还有换机助手等功能。

要知道，豆包输入法目前既没有微信输入法的匹配码机制，也没有其他主流输入法的账号体系。

微信输入法

再加上微信输入法本身也很出色的语音输入表现，所以我仍然主用微信输入法。

AI 不是也不应该成为我们选择产品的唯一因素。反过来，我也希望看到接下来上线的千问输入法 APP 会有很好的产品体验。一方面，千问在电脑端已经证明它在语音输入上也有很强的优势，如果这些能力原样来到手机，千问输入法至少会有一张不错的入场券。

但一款每天被调用数百次的手机输入法，不能只靠模型秀肌肉。手机和电脑的词库、常用语、剪贴板能否同步，语音启动能不能足够快，是否支持实时转写；长文本整理的力度能否让用户选择，避免 AI 过度改写原意，以及弱网和离线状态下还能不能稳定工作。

在 AI 语音输入之外，这些也在很大程度上影响今天输入法的体验。就像乔布斯说过的那句，「你必须先从用户出发，在反推需要什么技术。」技术可以提供可能性，但最终的用户体验，还是要回到产品设计和细节上。

前几年的输入法 AI 化就恰恰相当，很多产品只是从技术出发，很容易把问答、翻译、写作、搜索和智能体一股脑地塞进键盘。但输入法的使用逻辑和 AI 聊天工具不同，用户每一次唤起键盘，大多只想快速写完一句话，能力可以很多，交互必须很轻。否则，「全能」很容易变成一种臃肿。

输入法终究是一件基础工具，有用和好用之间加还有很多的设计和细节。

输入法依然是离用户意图最近的入口应用

字节、阿里、腾讯为什么都来做输入法？

从用户的角度看并不难理解。对我们每个人来说，输入法都太近了。无论在微信聊天、淘宝搜索、钉钉办公、浏览器搜索、小红书评论，还是文档写作，只要用户需要把想法交给手机，输入法就有机会出现。它不属于某一个 APP，却能跨过几乎所有 APP，也是调用频率最高的系统入口之一。

而大模型的加入，让输入法能够处理更靠近意图的一层：用户想说什么、该怎么说、这句话是否需要翻译、润色、总结。语音的表达形式，更让这个入口获得了更多原始信息，能接触语速、停顿。

对于字节，豆包输入法可以把豆包的模型能力带出豆包 APP，进入聊天、搜索和办公等更多场景。对于腾讯，微信输入法连接微信社交、搜狗输入法积累和混元模型，既有现成用户，也有最丰富的中文交流场景。而对于阿里，千问输入法有机会穿过电商、支付、地图、办公和内容创作，把千问从一个需要主动打开的 AI 助手，变成随时可以调用的底层能力。

而从我自己的使用来看，语音输入已经跨过了「偶尔应急」的阶段，但它还替代不了所有键盘场景，办公室里不方便开口，密码和精确编辑仍然更适合手动操作。至于在走路、快速回复和整理想法时，我越来越不愿意「古法手打」。

本文来自微信公众号“雷科技”，作者：雷科技

本内容旨在传递行业动态，不构成投资建议或承诺。