
文章以法拉第与汤姆逊的科学协作隐喻切入,分析DeepSeek与Kimi两家中国AI公司在技术路线、开源生态、商业策略与人才结构上的深度互嵌与互补性,探讨其合并可能带来的全栈底座、算力协同、出海整合与估值提升等价值,并最终指出合并虽逻辑自洽却受创始人独立性、股东利益、反垄断及创新机制等多重现实约束而几乎不可行,强调健康竞争才是中国大模型生态进化的根本路径。
1854年,伦敦。迈克尔·法拉第在皇家研究所的地下室中撒下铁屑,轻敲纸板。铁屑在看不见的磁场里排列成优美的弧线,他将这些弧线称为“力线”,一种全新的物理学语言就此诞生。
同年秋,威廉·汤姆逊在格拉斯哥大学写下一组偏微分方程,用严密的数学语言重写法拉第的直觉,把“场”纳入牛顿力学的分析框架。汤姆逊相信,唯有方程,才能让自然规律被真正理解。
这两种理解世界的方式,在整个维多利亚时代既竞争又互哺,让电磁学在半个世纪内完成了三级跳——从实验室猜想,到数学精确描述,再到工程化——最终催生麦克斯韦方程组,成为第二次工业革命的基石。
一个半世纪后,相似的剧本在中国AI领域悄然重演。
2026年4月20日,月之暗面发布Kimi K2.6。四天后的4月24日,DeepSeek开源V4。两个万亿参数级开源模型在同一周落地,包揽全球权威开源模型榜单前两名。这是两家公司在过去16个月里又一次技术路线迎头相撞。
技术撞车撞到第N次,单纯的比较已然疲乏。就在日前,X上出现了一则好玩的提问,配着一张梗图:如果DeepSeek和Kimi等中国开源公司合并,OpenAI和Anthropic CEO会是什么反应?

仔细想想,在中国互联网史上,其实这一追问并不突兀。从2012年优酷与土豆的世纪联姻起,每隔几年,同一赛道的前两名便会在资本与巨头的意志推动下,从相杀走向相爱,把内耗转为合力,去应对外部更大的战场。
DeepSeek与Kimi们会走进这条河流吗?我们今天就开个脑洞:假如它们真的合并,会发生什么?
DeepSeek与Kimi们技术路线的高度互嵌,是探讨合并假设的基本前提。假设合并,第一个产物就是一个覆盖“训练—推理—部署—应用”全链条的模型平台。
首先,DeepSeek与Kimi们在架构层面的互嵌已深入骨髓。DeepSeek在V3中首创的MLA注意力机制,通过低秩压缩大幅削减KV缓存占用,解决的是长文本推理中“内存即成本”的根本困境。2025年7月,Kimi发布万亿参数开源模型K2,直接采用MLA并将其扩展至万亿参数规模,证明这条技术路线规模化可行。
到2026年4月,剧本反转。DeepSeek发布V4,一项关键升级是用二阶优化器Muon替换沿用十年的Adam优化器。Muon的有效性,正是Kimi在K2训练中首次在万亿参数规模上验证,并由Kimi团队系统性地公开了技术经验。
其次,在能力层面,它们分工清晰、价值有很多互补的地方。
DeepSeek V4把单token推理算力压至V3.2的27%,KV缓存压缩至十分之一,百万token上下文从技术演示变为普惠基础设施。Kimi K2.6则聚焦长程任务执行与Agent集群,支持300个子Agent并行协作、4000次工具调用、13小时不间断编码。OpenRouter数据显示,K2.6发布后跃居调用榜首,DeepSeek紧随其后,两家同时进入全球前五。
多模态方面,Kimi K2.6是全球开源前五中唯一支持图片与视频理解的模型;DeepSeek在高阶推理、数学与代码评测中持续领先。二者在这一领域存在高度互补性。
最后,再硬件生态上,这两家的选择高度一致。
DeepSeek V4明确下半年将支持华为昇腾950,技术栈不再只依赖英伟达CUDA,而是开始同步支持华为。Kimi模型采用对国产芯片更友好的INT4量化技术,新发布的Prefill-as-a-Service技术更是支持国产芯片和已有英伟达芯片,降低对CUDA生态的依赖。如果是一家公司的话,在国产模型和国产算力的对接上会更有效率。
以上三个层面合在一起看,DeepSeek在过去一个时期侧重解决“模型够不够便宜”,Kimi则侧重解决“模型能不能干重要的事”。合并后的平台将因此同时具备极致推理效率与深度生产力嵌入能力,可以直接对标OpenAI与Anthropic的闭源模型加产品矩阵。
技术互补是现象。更根本的原因在于人。DeepSeek与Kimi的两位创始人都信奉第一性原理,底层思维如出一辙。
梁文锋的底色,是一位量化工程师。他浙大毕业,没有留学背景,扎进量化投资靠算法交易完成资本积累,再投入AGI研究。这条路教会他一件事:把问题拆解到底层,重新计算每个环节是否冗余,用最少资源达成同样结果。他选择开源的理由也源于同一逻辑——“在颠覆性的技术面前,闭源形成的护城河是短暂的。”语气平淡,逻辑锋利。
杨植麟的底色,是一位可计算学派的笃信者。清华本科,CMU博士,求学期间以Transformer-XL等工作建立学术声望。他用六个字定义大模型的本质:“压缩产生智能。”在他看来,只要找到更优的压缩方式,用更少的token表达同等信息密度,就能在算力受限下持续逼近更高智能。他以等差数列作比:一万个数字,最理想的压缩只存储规律和首尾两项,其余皆可还原。他要找的,就是大模型里的那条“等差规律”。
一个用工程逼近极限,一个用逻辑逼近本质,殊途同归。这正是DeepSeek与Kimi技术互嵌所以发生的根由。
一项产业事实正在浮现:它们正在共同构建一套标准开源技术栈——MoE架构、MLA注意力、Muon优化器、多模态能力、Agent框架、国产芯片适配。开源模型在实际调用量快速提升,说明这套技术栈正在成为中国大模型的事实标准。
也就是说,假如DeepSeek与Kimi们合并,诞生一个平视OpenAI与Anthropic的全栈技术底座只是下限。两种计算精神的深度碰撞,将大幅推升大模型开源世界的进化速率。
技术互嵌已然够深。但如果只停在技术层,合并的价值只兑现一半。两家公司面临的商业瓶颈高度一致:算力不足,收入体量偏小,全球化叙事分散。
先看算力。DeepSeek在V4定价说明中写了一句:“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后价格会大幅下调。”Kimi内部则流传一个说法:“制约业务发展的只有算力,现在至少还有10倍的需求没有被满足。”
合并之后,芯片采购、机房建设、国产适配的投入不再重复,对英伟达、华为等供应商的议价能力随之提升。更重要的是,统一技术栈意味着国产芯片只需适配一套标准,生态碎片化成本大幅压缩。
再看收入。Kimi K2.5发布后20天内收入超过2025年全年,海外收入已超越国内,付费用户月环比增速超过170%。K2.6发布时,API输入价格从每百万token 4元提至6.5元,涨幅58%,这是K2系列上线以来的首次涨价。DeepSeek则以“价格屠夫”著称,V4 Pro输入每百万token 12元人民币,到5月结束之前还限时打2.5折,仅3元。极致低价快速俘获了开发者,也压缩了盈利空间。
如果采用统一价格体系、持续且合理的成本下沉,有助于中国开源模型从互相压价转向协同定价,在国际市场建立更稳固的价值锚点。
出海方面,Cursor套壳Kimi K2.5,Cloudflare引入Kimi作为主力模型,Perplexity将Kimi列为唯一引入的中国模型,日本乐天基于DeepSeek开发Rakuten AI 3.0。两家在海外已各自建立了初步的用户心智据点。
合并后,统一品牌和开发者关系将降低海外认知成本,避免两个中国开源模型在同一生态位上彼此消耗。一个更强的统一品牌,在海外市场与云服务商、芯片厂商和顶级企业客户谈判时,议价空间和合作条款的主动权将完全不同。
DeepSeek与Kimi是中国AI创业赛道中人数最精简、人才密度最高的两家公司,也都承受着大厂精准的挖角压力。
过去一年,DeepSeek被系统性挖走了至少五位核心成员,覆盖了基座模型、推理、OCR、多模态四条核心技术线。Kimi在2025年年中经历长达半年的技术静默期,同样遇到员工流失。
两家团队的技术气质也很相似。双方都重视底层关键技术的研究:DeepSeek脱胎于幻方量化,工程优化与成本控制文化浓厚;Kimi由清华与CMU学术背景的研究者主导,学术探索与前沿创新氛围浓厚。
假设得以合并,将形成覆盖量化工程、学术研究、产品落地的复合型团队,在优化器、注意力机制、残差连接等底层领域的研究深度,可以更好的与OpenAI和Anthropic的研究部门正面抗衡。
一个更大的合并平台,能为顶尖研究者提供更具吸引力的股权空间与长期技术愿景。当公司体量接近或超过OpenAI与Anthropic的估值水平时,被字节、腾讯、阿里以高薪逐个击破的风险将显著降低。
这也是合并假设的一个重要隐喻:大模型创业总要面对人才掐尖的现实。与其让大厂一颗颗拔掉核心棋子,不如把棋盘做大。
从资本层面看,两家公司的融资节奏同样呈现清晰的互补性。
DeepSeek此前从未引入外部资金。2026年4月首次开启外部融资,估值从最初至少100亿美元一路飙升至超200亿美元。融资这扇门被推开,意味着外部环境的压力已超过对内部独立性的坚持。
Kimi则在2025年末至2026年初完成三轮融资,估值从43亿美元跃升至180亿美元。3月26日,彭博报道月之暗面正在考虑赴港IPO,同步进行一轮最高10亿美元的融资。
两家的资本画像由此形成对照:一方初次向外开放,但估值中枢模糊;一方已证明付费模式的可行性,但同样被算力资源钳制了规模。这种互补性,构成了合并谈判桌上关于估值空间博弈最具分量的筹码。
合并后的估值,则要从全球AI定价坐标中寻找参照。截至2026年4月,OpenAI投后估值已逾8500亿美元,Anthropic一级市场估值达3800亿美元(最近在未上市股权交易平台的价格甚至炒到突破1万亿美元,反超了OpenAI)。反观DeepSeek与Kimi,即便将双方当前估值简单相加,也不及Anthropic的二十分之一。
悬殊的差距背后,映射的正是两家公司因各自受制于技术栈、资源能力与商业模式的不完整性,其技术实力与商业估值之间的巨大折价。
在全球AI格局中,中国开源模型已成衡量全球硬件进步的标尺。一如Meta最新模型Muse Spark的官方博客中,对比基准直接列出DeepSeek与Kimi;再如黄仁勋在英伟达2026年GTC演讲中,用DeepSeek R1和Kimi K2.5展示下一代Blackwell Ultra芯片性能
但海外开发者社区面对的是一个“中国开源模型群像”,而非一个清晰品牌。统一品牌、统一API、统一技术路线图,将大幅降低全球开发者的认知与迁移成本。
具体到DeepSeek与Kimi,二者的双头并进带来了关注同时,也存在显著的战略叙事的分散与模糊问题。合并有机会将中国开源模型的声音集中为一个更清晰的品牌。
此外在生态对抗层面,硅谷正在快速走向封闭。OpenAI不再公布训练细节,Anthropic与Google的核心方法讳莫如深。Meta虽以Llama系列维持开源叙事,技术透明度已远不及中国公司。
DeepSeek与Kimi的技术报告与开源代码,构成了全球开源社区最重要的公共知识资产。多次技术撞车,表面是竞争,内里是开源生态的正向循环。这种技术扩散,在硅谷头部公司之间几乎不可能发生。合并后,这种协同将从暗中的默契转化为明面的体系,对全球开发者的吸引力将进一步放大。
定价权层面,两家中国公司各自为战时,实质上在互相压低对方的商业价值。统一价格体系与开发者生态,中国开源模型才能真正从搅局者转变为规则制定者。
逻辑推到最后一步,必须面对一个事实:合并几乎不可能发生,我们只是开个脑洞。
首先,创始人独立性是第一堵墙。梁文锋与杨植麟都是技术基因极强的创始人,各自带出一支战斗力饱满的团队。DeepSeek此前完全不拿外部融资,靠幻方量化自有资金烧至今日。梁文锋的独立性,投资圈有目共睹。一位接近他的人评价:“这不是一个出得起价就能进的标的,钱在梁文锋的筛选标准里,是最不重要的那一项。”杨植麟在三个月内将公司从估值低谷拉升至180亿美元,经历了完整的V型反转。
两个广东人,相差八岁。一个从量化圈杀出,一个在学术界登顶。要让任何一方在合并中屈居次要地位,几乎无望。
其次,股东利益难以协调。腾讯参与Kimi多轮投资,又正接触DeepSeek;阿里同时出现在两家投资名单中。大厂的战略投资,本质是两边下注,而非促成一家独大。若强行推动合并,腾讯与阿里在AI赛道的布局灵活性将被大幅削弱。更关键的是,DeepSeek此前从未引入外部资本,梁文锋对公司的控制权近乎绝对。Kimi方面已历经多轮融资与多元股东,治理结构远比DeepSeek复杂。
更关键的是,监管审查可能不会放行。两家合并后或将占据中国开源模型的主导地位,开源赛道上的其他独立大模型公司或将被瞬间边缘化。反垄断审查即成难以逾越的一关。中国AI所需要的,是一个健康的竞争生态,而非一个开源领域的巨头。
另外还有一条更深层的原因。竞争本身就是最高效的创新机制。回看这16个月,多次技术撞车恰恰印证:竞争加速创新。这种追赶若变成一家公司的内部迭代,反而可能丧失外部压力催生的紧迫感。硅谷的OpenAI与Anthropic也在互相刺激,虽然闭源,竞争逻辑并无二致。
开源生态的多样性远比统一性重要。全球开源模型需要多条技术路线并存,一旦中国只剩一家开源巨头,技术路线一旦走偏,整个中国开源生态便有倾覆之险。多一棵树,便多一份抗风险的能力。
百余年产业史反复验证着一条规律:最强大的系统,并非将所有零件塞入同一台引擎,而是让不同的引擎在同一片海域中互为灯塔。产业真正的成熟,不是所有公司合并成一个巨无霸,而是多家公司在竞争中相互学习、共同进化,最终形成比任何单一公司都更强大的生态力量。
全球AI竞争已从单一技术比拼升维为生态对抗。在这场对抗中,中国不需要一个开源领域的超级巨头,而需要几座相互映照的高峰。它们是对手,亦是彼此最好的参照系。
一如法拉第的力线与汤姆逊的方程,一个用直觉触摸世界的形状,一个用逻辑推演真理的骨骼,最终在麦克斯韦方程处合流,却从不曾合并为一人。它们各自独立,才让彼此的光芒有了可被丈量的参照。
在通往AGI的漫漫长路上,单枪匹马或许能走得很快;但只有那些愿意与同行者分享火种的队伍,才能穿越大雪封山的无人区。
本文来自微信公众号 “锦缎”(ID:jinduan006),作者:穆阳