
文章深度剖析英伟达的核心护城河并非芯片硬件,而是以CUDA为中枢的全栈系统能力——涵盖计算架构、可编程软件生态与全球AI开发者网络;强调其战略在于‘做必要的一切,但不做全部’,通过生态协同而非垂直整合巩固AI时代底层基础设施地位,并指出能源与标准归属才是长期竞争关键。
原文标题:黄仁勋最新播客:英伟达的护城河能否持续?
原文作者:律动BlockBeats
原文来源:https://www.youtube.com/watch?v=Hrbq66XqtCo
转载:火星财经
编者按:当外界仍在讨论「英伟达的护城河是否来自供应链」时,这场对话认为,真正难以复制的,并非芯片本身,而是将「电子转化为 Token」的整套系统能力——即从计算架构、软件体系到开发者生态的协同运作。
本文编译自 Dwarkesh Patel 与 Jensen Huang(黄仁勋)的对谈。Dwarkesh Patel 是当下硅谷最受关注的科技播客主持人之一,主理 YouTube 频道 Dwarkesh Podcast,以深度研究型访谈见长,长期对话 AI 研究者与科技产业核心人物。

围绕这一核心,这场对谈可以从三个层面来理解。
其一,是技术与产业结构的变化。
英伟达的优势并不止于硬件性能,而在于 CUDA 所承载的开发者生态,以及围绕计算栈形成的路径依赖。在这一体系中,算力不再是唯一变量,算法、系统工程、网络与能效共同决定了 AI 的推进速度。这也引出一个重要判断:软件不会因 AI 而被简单「商品化」,相反,随着 Agent 的普及,工具调用将呈指数级增长,软件的价值反而被进一步放大。
其二,是商业边界与策略选择。
面对不断扩张的 AI 产业链,英伟达选择「做必要的一切,但不做全部」。它不进入云计算,也不进行过度垂直整合,而是通过投资与生态扶持放大整体市场规模。这种克制,使其既保持了关键控制力,又避免成为生态的替代者,从而将更多参与者纳入其技术体系之中。
其三,是关于技术扩散与产业格局的分歧。
对话中最具张力的部分,并不在于具体结论,而在于如何理解「风险」本身。一种观点强调算力领先所带来的先发优势,另一种则更关注技术扩散过程中生态与标准的长期归属。相较于短期能力差距,更关键的问题或许在于:未来的 AI 模型与开发者,究竟运行在哪一套技术体系之上。
换句话说,这场竞争的终局,不只是「谁率先做出更强的模型」,而是「谁定义了模型运行的基础设施」。
在这个意义上,英伟达的角色,已不再只是芯片公司,而更接近 AI 时代的「底层操作系统提供者」——它试图确保,无论计算能力如何扩散,价值生成的路径,仍然围绕自身展开。
以下为原文内容(为便于阅读理解,原内容有所整编):
·英伟达的护城河不在「芯片」,而在「从电子到 Token 的整套系统能力」。核心不是硬件性能,而是把计算转化为价的全栈能力(架构 + 软件 + 生态)。
·CUDA 的本质优势不是工具,而是全球最大 AI 开发者生态。开发者、框架、模型全部绑定在同一技术栈上,形成难以替代的路径依赖。
·AI 竞争的关键不只是算力,而是「计算栈 × 算法 × 系统工程」的组合。架构、网络、能效、软件协同带来的提升,远超单纯制程进步。
·算力瓶颈是短期问题,供给会在 2–3 年内被需求信号驱动补齐。真正的长期约束不是芯片,而是能源与基础设施。
·AI 软件不会被商品化,反而会因 Agent 爆发带来工具使用的指数级增长。未来不是软件变便宜,而是软件调用次数暴涨。
·不做云是英伟达的核心策略:做「必要的一切」,但不吞掉整个价值链。通过投资与生态扶持,而不是垂直整合,放大整体市场规模。
·真正的战略风险不是对手获得算力,而是全球 AI 生态不再基于美国技术栈。一旦模型与开发者迁移,长期技术标准与产业主导权将随之转移。
Dwarkesh Patel(主持人):
我们已经看到,很多软件公司的估值出现了下滑,因为大家预期 AI 会把软件变成一种标准化商品。还有一种可能略显天真的理解方式,大致是这样:你看,从设计文件(GDS2)交给台积电,台积电负责制造逻辑芯片、晶圆,构建开关电路,然后再和 SK 海力士、美光、三星生产的 HBM 一起封装,最后送到 ODM 去组装成整机机架。
所以,从这个角度看,英伟达本质上是在做软件,而制造是由别人完成的。如果软件被商品化了,那英伟达也会被商品化。
Jensen Huang(黄仁勋,英伟达 CEO):
但归根结底,总得有一个过程,把电子转化为 token。从电子到 token,并让这些 token 随时间变得更有价值,这种转化我认为很难被完全商品化。
从电子到 token 的转化,本身就是一段非常非凡的过程。而让一个 token 更有价值,就像让一个分子比另一个分子更有价值一样,是让一个 token 比另一个 token 更有价值。
在这个过程中,包含了大量的艺术、工程、科学和发明,才让这个 token 具备价值。
显然,我们正在实时地观察这一切发生。所以这个转化过程、制造过程,以及其中涉及的各种信号,其实远远没有被完全理解,这段旅程也远未结束。所以我不认为那种情况会发生。
当然,我们会让它变得更高效。事实上,你刚才描述问题的方式,其实就是我对英伟达的一个心智模型:输入是电子,输出是 token,中间这一段就是英伟达。
我们的工作,是在「尽可能做必要的事情,同时尽可能少做不必要的事情」,以实现这种转化,并让它具备极高的能力。
我说的「尽可能少做」,是指凡是我们不需要自己做的部分,我们就会和别人合作,把它纳入我们的生态。如果你看今天的英伟达,我们在上游供应链和下游供应链,可能都拥有规模最大的合作生态之一。从计算机厂商、应用开发者,到模型开发者——你可以把 AI 看作一个「五层蛋糕」。而我们在这五个层级上都有生态布局。
相关阅读:《英伟达黄仁勋最新文章:AI 的「五层蛋糕」》
所以我们尽量少做,但我们必须做的那一部分,其实是极其困难的。而我不认为那一部分会被商品化。
事实上,我也不认为企业软件公司本质上是在做「工具制造」。不过现实是,今天大多数软件公司确实是工具提供者。
当然也有例外,有些是在做工作流系统的编码与固化,但很多公司本质上是工具公司。
比如 Excel 是工具,PowerPoint 是工具,Cadence 做的是工具,Synopsys 也是工具。
Jensen Huang:
而我看到的趋势,恰恰和很多人的看法相反。我认为 agent 的数量会指数级增长,工具的使用者数量也会指数级增长。
各种工具的调用实例数量也很可能会激增。比如 Synopsys Design Compiler 的使用实例,很可能会大幅增长。
会有大量 agent 使用 floor planner、版图工具、设计规则检查工具。
今天,我们受限于工程师的数量;而明天,这些工程师会被大量 agent 支持,我们将以前所未有的方式去探索设计空间。当你用上今天这些工具时,这种变化会非常明显。
工具的使用会推动这些软件公司实现爆发式增长。这种情况之所以还没有发生,是因为现在的 agent 还不够擅长使用工具。
所以,要么这些公司自己去构建 agent,要么 agent 本身变得足够强,能够使用这些工具。我认为最终会是两者的结合。
Dwarkesh Patel
我记得在你们最新的披露中,你们在边界组件、内存、封装等方面有接近 1000 亿美元的采购承诺。而 SemiAnalysis 的报告认为,这个数字可能会达到 2500 亿美元。
一种解读是,英伟达的护城河在于你们锁定了未来多年这些稀缺组件的供给。也就是说,别人可能也能做加速器,但他们能拿到足够的内存吗?能拿到足够的逻辑芯片吗?
这是不是英伟达未来几年的核心优势?
Jensen Huang:
这是我们能做到、但别人很难做到的一件事。我们之所以能在上游做出巨大的承诺,一部分是显性的,也就是你提到的这些采购承诺;另一部分是隐性的。
比如,上游很多投资其实是我们的供应链伙伴做的,因为我会对他们的 CEO 说:让我告诉你这个行业会有多大,让我解释为什么会这样,让我和你一起推演,让我告诉你我看到的是什么。
通过这样的过程——传递信息、激发愿景、建立共识——我在和上游不同行业的 CEO 对齐,他们才愿意去做这些投资。
那为什么他们愿意为我投资,而不是为别人?因为他们知道,我有能力买下他们的产能,并通过我的下游把它消化掉。正是因为英伟达的下游需求和供应链规模如此之大,他们才愿意在上游进行投资。
你看 GTC,大会的规模让很多人感到震撼。它本质上是一个 360 度的 AI 宇宙,把整个行业聚在一起。大家聚在一起,是因为他们需要彼此看见。我把他们聚在一起,让上游看到下游,下游看到上游,同时让所有人看到 AI 的进展。
更重要的是,他们可以接触到 AI 原生公司和初创企业,看到正在发生的各种创新,从而亲眼验证我所说的那些判断。
所以我花了很多时间,直接或间接地向我们的供应链和生态伙伴解释眼前的机会。很多人会说,我的 keynote 不像传统发布会那样一个接一个宣布产品,而是有一部分听起来像是在「上课」。而这其实正是我的目的。
我需要确保整个供应链——无论上游还是下游——都理解:接下来会发生什么、为什么会发生、什么时候发生、规模会有多大,并且能够像我一样系统性地去推理这些问题。
所以你刚才说的那种「护城河」,确实存在。如果未来几年这个市场达到万亿美元规模,我们有能力去构建支撑它的供应链。就像现金流一样,供应链也有流动和周转。如果一个架构的业务周转不够快,没有人会为它建立供应链。我们之所以能维持这样的规模,是因为下游需求极其强劲,而且大家都能看到这一点。
正是这一点,让我们能够以现在这样的规模去做这些事情。
Dwarkesh Patel
我还是想更具体地理解一下,上游能不能跟得上。过去很多年,你们的收入基本是逐年翻倍,提供给全球的算力规模甚至是三倍增长。
Jensen Huang:
而且是在这个体量下继续翻倍。
Dwarkesh Patel
对。所以如果你看逻辑芯片,比如你们是台积电 N3 制程最大的客户之一,在 N2 上也是主要客户之一。
根据一些分析,今年 AI 可能会占 N3 产能的 60%,明年甚至可能达到 86%。
那在你已经占据这么大比例的情况下,你怎么还能继续翻倍?而且是每年都翻倍?我们是不是进入了一个阶段,AI 算力的增长必须因为上游限制而放缓?有没有办法绕开这些限制?我们到底要怎么做到每年建出两倍的晶圆厂?
Jensen Huang:
在某些时刻,瞬时需求确实会超过整个行业的供给,无论是上游还是下游。而且在某些情况下,我们甚至会被水管工的数量限制住——这是真的发生过的。
Dwarkesh Patel :
那明年的 GTC 应该邀请水管工了。
Jensen Huang:
对,这其实是个好现象。你希望处在这样一个市场里:瞬时需求是大于整个行业总供给的。反过来当然就不太好了。
如果两者差距太大,某一个具体环节、某一个组件成为明显瓶颈,整个行业就会一拥而上去解决它。比如说,我注意到现在大家已经不太讨论 CoWoS 了。原因是过去两年,我们对它进行了极大规模的投入和扩展,翻了好几倍。
现在我觉得整体已经处在一个比较好的状态。台积电也已经意识到,CoWoS 的供应必须跟上逻辑芯片和内存的需求增长。所以他们在扩展 CoWoS,同时也在扩展未来的先进封装技术,而且是按照和逻辑芯片同样的节奏在扩展。
这非常重要,因为过去 CoWoS 和 HBM 内存都更像是「特种能力」,但现在已经不是了。现在大家已经意识到,它们是主流计算技术的一部分。
同时,我们现在也更有能力去影响更大范围的供应链。在过去,在 AI 革命刚开始的时候,我现在说的这些判断,其实五年前就已经在讲了。
当时有些人相信并投入了,比如美光的 Sanjay 团队。我至今还记得那次会议,我当时非常清楚地讲了未来会发生什么、为什么会发生,以及今天这些结果的预测。他们当时选择大幅加码,我们也和他们建立了合作关系。在 LPDDR、HBM 等多个方向上,他们都进行了投入,这对他们来说显然带来了很大的回报。也有一些公司是后来才跟上的,但现在大家都已经进入这个阶段了。
所以我认为,每一代技术、每一个瓶颈,都会得到大量关注。而现在,我们已经在提前几年「预取」这些瓶颈。比如我们和 Lumentum、Coherent,以及整个硅光(silicon photonics)生态的合作。过去几年,我们实际上重塑了整个生态和供应链。
在硅光方面,我们围绕台积电建立了完整的供应链,与他们合作开发技术,发明了很多新的技术,并把这些专利授权给供应链,保持生态的开放。我们通过发明新技术、新工作流程、新测试设备(包括双面探测等),投资相关公司、帮助它们扩产,来为供应链做准备。
所以你可以看到,我们是在主动塑造这个生态,让供应链能够支撑未来的规模。
Dwarkesh Patel:
听起来有些瓶颈比其他的更容易解决。比如说,相比扩展 CoWoS 更难的那些
Jensen Huang:
我刚才其实举的是最难的那个例子。
Dwarkesh Patel:
哪个?
Jensen Huang:
水管工。对,是真的。我刚才说的是最难的那个——水管工和电工。原因在于,这也让我对一些「末日论者」的说法有点担忧,他们总是在谈工作会消失、岗位会被替代。如果我们因此劝人不要去做软件工程师,那未来就真的会缺软件工程师。
类似的预测,十年前也出现过。当时有人说:「无论你做什么,都不要去当放射科医生。」你现在还能在网上找到那些视频,说放射科会是第一个被淘汰的职业,世界将不再需要放射科医生。但现实是,我们现在反而缺放射科医生。
Dwarkesh Patel:
好,那回到刚才的问题:有些环节可以扩展,有些不行。那具体来说,逻辑芯片的产能怎么翻倍?毕竟真正的瓶颈在这里,内存和逻辑都是限制因素。那 EUV 光刻机呢?你怎么做到每年把它的数量也翻一倍?
Jensen Huang:
这些都不是做不到的事情。确实,快速扩产不容易,但在两到三年内把这些事情做到,其实并不难。关键是要有明确的需求信号。一旦你能造出一台,就能造出十台;一旦能造出十台,就能造出一百万台。所以这些东西本质上并不难复制。
Dwarkesh Patel:
那你会把这种判断传达到供应链多深?比如你会不会去找 ASML,说:如果我往后三年看,为了让英伟达年收入达到 2 万亿美元,我们需要更多的 EUV 光刻机?
Jensen Huang:
有些我会直接做,有些是间接推动。如果我能说服台积电,那 ASML 自然也会被说服。所以我们要识别关键的瓶颈点。但只要台积电相信这个趋势,几年之后你就会有足够的 EUV 设备。
我的意思是,没有任何一个瓶颈会持续超过两到三年,没有一个。
与此同时,我们也在提升计算效率。从 Hopper 到 Blackwell,大约提升了 10 倍、20 倍,有些情况下甚至达到 30 到 50 倍。我们也在不断提出新的算法。因为 CUDA 足够灵活,我们可以开发出各种新方法,在扩充产能的同时提升效率。
所以这些事情都不会让我担心。真正让我担心的,是我们下游之外的因素,比如能源政策。没有能源,你就无法扩张;没有能源,你就无法建立一个产业;没有能源,你就无法建立一个全新的制造业体系。
现在我们想推动美国再工业化,想把芯片制造、计算机制造、封装带回美国,同时建设电动车、机器人这些新产业。当我们在建设 AI 工厂时,这些都离不开能源,而能源相关的建设周期很长。相比之下,增加芯片产能,是一个两三年的问题;增加 CoWoS 产能,也是两三年的问题。
Dwarkesh Patel:
挺有意思的。我感觉我采访过的一些嘉宾,给出的判断正好相反。只是这个问题上,我确实没有足够的技术背景来做判断。
Jensen Huang:
不过,好的一点是,你现在是在和专家对话。
Dwarkesh Patel:
对,确实。我想问一下你的竞争对手。如果看 TPU,可以说现在全球前三的大模型里,有两个——Claude 和 Gemini——是用 TPU 训练的。这对英伟达未来意味着什么?
Jensen Huang:
我们做的是完全不同的东西。英伟达构建的是「加速计算」(accelerated computing),而不是张量处理单元(TPU)。
加速计算可以用于各种各样的任务,比如分子动力学、量子色动力学,也用于数据处理、数据框架、结构化数据、非结构化数据,还用于流体力学、粒子物理,当然也包括 AI。所以,加速计算的应用范围要广得多。
虽然现在大家的讨论集中在 AI 上,AI 确实非常重要、影响也很大,但「计算」本身的范围要比 AI 广得多。英伟达所做的,是把计算方式从通用计算重新发明为加速计算。我们的市场覆盖范围远远大于任何 TPU 或其他专用加速器所能覆盖的范围。
如果看我们的定位,我们是唯一一家可以加速各种类型应用的公司。我们拥有庞大的生态系统,各种框架和算法都可以运行在英伟达平台上。而且,我们的计算机系统是为「由他人来运营」而设计的。任何运营者都可以购买我们的系统来使用。
大多数自研系统并不是为他人使用而设计的,你基本上必须自己来运营它们,因为它们从一开始就没有被设计成足够灵活,供他人使用。正因为我们的系统任何人都可以运营,我们进入了所有主要平台,包括 Google、Amazon、Azure、OCI 等。
无论你是为了出租算力来运营系统,还是自己使用系统,如果你要做租赁业务,你就必须拥有一个覆盖多个行业的大规模客户生态来承接这些需求。如果你是为了自己使用而运营系统,我们当然也有能力帮助你完成这件事。比如说,Elon 的 xAI。
因为我们可以让任何行业、任何公司的运营者都能够使用我们的系统,你可以用它来为像 Lilly 这样的公司构建超级计算机,用于科学研究和药物发现。我们可以帮助他们运营自己的超级计算机,并将其用于整个药物研发和生物科学的各种应用场景,而这些都是我们可以加速的领域。
所以我们可以覆盖大量应用场景,而 TPU 做不到这一点。英伟达构建的 CUDA,本身也可以作为一个非常出色的张量处理平台,但它不仅仅是这样,它覆盖了数据处理、计算、AI 等整个生命周期。所以我们的市场机会要大得多,覆盖范围也更广。而且因为我们现在基本支持全球所有类型的应用,你可以在任何地方部署英伟达系统,并且可以确信一定会有客户来使用它。
所以这本质上是完全不同的一种东西。
Dwarkesh Patel :
这个问题会稍微长一点。
你们现在的收入非常惊人,而且这些收入主要并不是来自制药或量子计算。你们不是靠这些业务每季度赚 600 亿美元,而是因为 AI 是一项前所未有、而且正在以前所未有速度推进的技术。
所以问题是:如果只看 AI,本身最优的方案是什么?我不是做底层的,但我和一些 AI 研究员朋友聊过,他们会说:当我使用 TPU 时,它是一个很大的阵列,非常适合做矩阵乘法;而 GPU 更灵活,适合处理大量分支和不规则内存访问。
但如果你看 AI,本质上是不是就是一遍又一遍、非常可预测的矩阵乘法?那你其实不需要为 warp 调度、线程切换、内存 bank 等等这些功能去占用芯片面积。所以 TPU 在当前这波算力需求和收入增长中,针对主要应用场景是高度优化的。
你怎么看这个观点?
Jensen Huang:
矩阵乘法确实是 AI 中一个重要部分,但它并不是 AI 的全部。
如果你想提出一种新的 attention 机制,或者用不同方式来做计算;如果你想设计一种全新的架构,比如 hybrid SSM;如果你想构建一种融合 diffusion 和 autoregressive 的模型——你需要的是一个通用可编程的架构,而我们可以运行你能想到的任何东西。
这就是我们的优势,它让新算法的发明变得容易得多。正因为这是一个可编程系统,而不断发明新算法,正是 AI 能够如此快速进步的原因。
TPU 和其他任何硬件一样,也受到摩尔定律的影响。我们知道摩尔定律大约每年带来 25% 的提升。所以如果你想实现 10 倍、100 倍的跃升,唯一的方式是每年都从根本上改变算法以及它的计算方式。
这正是英伟达的核心优势。
我们之所以能让 Blackwell 相比 Hopper 实现大幅提升——我当时说是 35 倍——当我第一次宣布 Blackwell 的能效会比 Hopper 提高 35 倍时,没有人相信。
后来 Dylan 写了一篇文章,说其实我还保守了,真实提升更接近 50 倍,而这种提升不可能仅靠摩尔定律实现。我们解决这个问题的方法,是引入新的模型结构,比如 MoE,并把计算进行并行化、解耦、分布式处理,扩展到整个计算系统中。如果没有能力深入到底层、用 CUDA 去开发新的计算内核,这些是很难做到的。
所以我们的优势在于:架构的可编程性,以及英伟达作为一家高度协同设计的公司。我们甚至可以把一部分计算卸载到互连架构中,比如 NVLink,或者网络层,比如 Spectrum-X。也就是说,我们可以在处理器、系统、互连、软件库、算法这些层面同时推动变化。所有这些都是同时完成的。如果没有 CUDA 来支撑这一切,我甚至不知道该从哪里开始。
Dwarkesh Patel:
这也引出了一个关于英伟达客户结构的问题:如果你们 60% 的收入来自这五大超大规模云厂商(hyperscalers),在另一个时代、面对不同类型的客户,比如做实验的教授,他们会非常依赖 CUDA。他们不能用别的加速器,只能用 PyTorch + CUDA,并且需要一切都被优化好。
但如果是这些超大规模云厂商,他们有能力自己写内核。事实上,他们也必须这么做,去榨取最后那 5% 的性能。Anthropic、Google 很多时候在用自研加速器或者 TPU 来训练。即使是 OpenAI,在使用 GPU 时也会用 Triton,他们会说:我们需要自己的 kernel。于是他们会直接写 CUDA C++,而不是用 cuBLAS、NCCL 这些库,并且构建自己的软件栈,甚至可以编译到其他加速器上。
所以,对你们的大多数客户来说,他们确实可以、也确实在替代 CUDA。那 CUDA 到底在多大程度上,仍然是推动前沿 AI 必须依赖英伟达的关键?
Jensen Huang:
首先,CUDA 是一个非常丰富的生态系统。如果你要在任何一台计算机上开发,从 CUDA 开始是一个非常明智的选择。因为这个生态非常丰富,我们支持所有主流框架。
如果你需要写自定义 kernel,比如 Triton,我们在 Triton 的后端贡献了大量英伟达技术,我们也非常乐于帮助各种框架变得更好。现在有很多很多框架,比如 Triton、vLLM、SG Lang,还有更多。
随着后训练(post-training)和强化学习的发展,这一领域正在快速扩张。比如你有 Vairal、NeMo RL,以及一系列新的框架。如果你要在某个架构上开发,从 CUDA 开始是最合理的,因为你知道生态是成熟的。当出现问题时,更可能是你自己的代码出了问题,而不是底层那一大堆代码。
不要忘了,这些系统背后涉及的代码规模是非常巨大的。当系统出问题时,你会想知道问题是在你这里,还是在计算平台本身。
你当然更希望问题是在你自己,而不是在计算平台。当然,我们自己也有很多 bug,但我们的系统已经非常成熟,你至少可以在一个可靠的基础上继续构建。
第二点是,安装基数的规模。如果你是开发者,无论你在做什么,最重要的一件事就是「安装基数」(install base)。你希望你的软件能运行在尽可能多的计算机上。你不是为了自己写软件,你是为你的整个集群,甚至为整个行业写软件,因为你是一个框架开发者。
英伟达的 CUDA 生态,本质上是我们最重要的资产。现在全球已经有数亿块 GPU。所有云厂商都有,从 V100、A100、H100、H200,到 L 系列、P 系列,各种规格都有。
而且它们存在于各种不同的形态中。如果你是一家机器人公司,你会希望 CUDA 能直接运行在机器人本体上。我们基本无处不在。
这意味着,一旦你开发了软件或模型,它可以在任何地方使用。所以这个安装基数本身的价值是极其巨大的。
最后一点是,部署位置的灵活性。我们存在于所有云平台中,这一点使我们具有独特性。作为 AI 公司或开发者,你并不确定最终会和哪一家云厂商合作,也不确定你的系统会运行在哪里。而我们在所有地方都可以运行,包括本地部署(on-prem)。
所以,生态的丰富性、安装基数的规模,以及部署位置的灵活性,这三者结合在一起,是非常有价值的。
Dwarkesh Patel:
这很有道理。但我比较好奇的是,这些优势对你们的主要客户来说,是否真的那么重要。确实有很多人会受益于这些优势,但那些能够自己构建软件栈的人——也就是贡献你们大部分收入的那批客户——尤其是在一个 AI 在「可验证反馈闭环」任务上越来越强的世界里,比如强化学习场景,像 attention 或 MLP 这样的 kernel 优化,其实是一个非常容易验证的反馈循环。
那这些超大规模云厂商,是否完全可以自己写这些 kernel?当然,他们可能仍然会因为性价比选择英伟达。但问题在于,这最终会不会变成一个简单的比较:谁能提供更好的规格?比如,在单位成本下,谁能提供更高的算力(FLOPs)和更高的内存带宽?因为过去英伟达在硬件和软件层面都拥有极高的利润率(70% 以上),很大程度上是因为 CUDA 这个护城河。
那问题是,如果大多数客户都可以自己构建软件栈,而不依赖 CUDA,这样的利润率还能维持吗?
Jensen Huang:
我们投入到这些 AI 实验室的工程师数量是非常惊人的,和他们一起工作、帮他们优化整个技术栈。原因是,没有人比我们更了解我们的架构。而这些架构并不像 CPU 那样通用。
CPU 有点像一辆「家用车」,你可以把它理解成一辆巡航车,不会开得特别快,但每个人都能很好地驾驶,有巡航控制,一切都很简单。但英伟达的 GPU 加速器更像是 F1 赛车。我可以想象每个人都能把它开到 100 英里每小时,但要把它真正推到极限,是需要相当专业能力的。
而我们使用大量 AI 来生成这些 kernel。我非常确定,在相当长一段时间内,我们仍然是不可或缺的。我们的专业能力可以帮助这些 AI 实验室的合作伙伴,很容易地把他们的性能再提升 2 倍。很多时候,我们优化完他们的技术栈或某个 kernel 后,他们的模型可以加速 3 倍、2 倍,甚至 50%。这是一个非常大的提升,尤其是当你考虑到他们拥有大量 Hopper 和 Blackwell 集群时。
如果你把性能提升一倍,那就意味着收入直接翻倍。这是直接对应收入的。英伟达的计算栈,在全球范围内的 TCO(总拥有成本)表现是最优的,没有任何对手。没有任何一家公司能向我证明,有哪个平台在性能/TCO 比上比我们更好。一个都没有。而且这些基准测试是公开存在的。
Dylan 说得没错。Inference Max 是公开的,任何人都可以用。但没有任何 TPU 团队愿意用它来展示他们的推理成本优势。这很难做到,没有人愿意出来证明。
MLPerf 也是一样。我很欢迎他们来展示他们一直声称的 40% 优势。我很想看到他们证明 TPU 在成本上的优势。在我看来,这没有意义,从基本原理上讲就说不通。完全说不通。
所以我认为,我们之所以成功,根本原因是我们的 TCO 非常优秀。
另外一点,你说我们 60% 的客户来自前五大厂商,但其中大部分业务其实是面向外部客户的。比如,在 AWS 上,英伟达的算力大多数是提供给外部客户,而不是 AWS 自己用。在 Azure 上,我们的客户基本也都是外部客户;在 OCI 上也是如此。他们之所以选择我们,是因为我们的覆盖范围非常广。
我们可以把全球最优质的客户带给他们,而这些客户本身就是建立在英伟达平台上的。而这些公司之所以建立在英伟达上,是因为我们的覆盖范围和灵活性都非常强。
所以我认为,这个飞轮在起作用:安装基数、架构的可编程性、生态的持续积累。再加上现在全球有成千上万家 AI 公司。如果你是其中一家 AI 初创公司,你会选择哪种架构?你会选择最普及的、安装基数最大的、生态最丰富的架构。这就是这个飞轮的逻辑。
所以原因在于:
·第一,我们的单位成本性能(performance per dollar)非常高,因此 token 成本最低;
·第二,我们的单位功耗性能(performance per watt)是全球最高的;如果合作伙伴建设一个 1GW 的数据中心,它必须产出最多的 token,也就是最多的收入。而我们的架构在单位功耗下可以产生最多的 token。
·第三,如果你的目标是出租算力,我们拥有全球最多的客户。
这就是这个飞轮成立的原因。
Dwarkesh Patel:
很有意思。我觉得问题的核心在于,这个市场结构到底是什么样的。即使存在很多公司,也完全可能出现一种情况:有成千上万家 AI 公司,它们大致平分算力。
但如果实际情况是,通过这些超大规模云厂商,真正使用算力的是像 Anthropic、OpenAI 这样的基础模型公司,而它们有能力让不同加速器都跑起来。
Jensen Huang:
我认为你的这个前提是错的。
Dwarkesh Patel :
也许吧。那我换个问法,如果这些关于性能和成本的说法都成立,那为什么像 Anthropic 这样的公司,前几天刚刚宣布和博通、Google 达成多吉瓦级别的 TPU 合作?而且它们大部分算力都来自这些体系。对 Google 来说,TPU 本身就是主要算力来源。所以如果看这些大型 AI 公司,曾经是完全用英伟达,现在已经不是了。
如果这些优势在理论上成立,那为什么它们还会选择其他加速器?
Jensen Huang:
Anthropic 是一个比较特殊的例子。如果没有 Anthropic,TPU 的增长几乎不会存在。TPU 的增长几乎完全来自 Anthropic。同样,如果没有 Anthropic,训练需求的增长也几乎不存在。
这是一个非常清楚的事实。并不是存在大量类似的机会,实际上只有一个 Anthropic。
Dwarkesh Patel:
但 OpenAI 也和 AMD 有合作,他们还在开发自己的 Titan 加速器。
Jensen Huang:
但他们绝大多数还是在用英伟达。我们也会继续大量合作。我并不会因为别人尝试其他方案而感到不满。如果他们不去尝试其他方案,又怎么知道我们的方案有多好?
有时候确实需要通过比较来重新确认这一点。而我们也必须不断证明我们配得上现在的位置。
市场上一直都有各种各样的说法。你可以看看有多少 ASIC 项目被取消了。仅仅因为你开始做 ASIC,并不意味着你能做出比英伟达更好的东西。
事实上,这并不容易。甚至可以说,从理性上看,这并不太成立。除非英伟达真的在某些方面犯了严重错误。但考虑到我们的规模、我们的速度——我们是全球唯一一家每年都在实现大幅跃迁的公司。
Dwarkesh Patel:
他们的逻辑是:不需要比英伟达更好,只要不要比英伟达差 70% 就可以,因为他们认为你们的利润率有 70%。
Jensen Huang:
但别忘了,即使是 ASIC,利润率其实也很高。英伟达的利润率大约是 60%–70%,而 ASIC 的利润率可能也有 65%。那你真正节省了多少呢?
你总是要付钱给某一方。所以从我看到的情况来看,这些基础(ASIC)业务的利润率其实也非常高,而且他们自己也这么认为,并且对此相当自豪。
很早以前,我们其实没有能力去做这件事。而且说实话,当时我并没有真正深刻理解,构建一个像 OpenAI 或 Anthropic 这样的基础模型实验室到底有多困难。也没有完全意识到,它们实际上需要来自供应方的大规模投资支持。
当时我们没有能力去做那种数十亿美元级别的投资,比如投资 Anthropic,让他们使用我们的算力。但 Google 和 AWS 可以,他们在一开始就投入了巨额资金,而作为回报,Anthropic 使用他们的算力。
我们当时既没有能力这样做,我会说,这是我的一个失误:我没有真正意识到,他们其实没有其他选择。风险投资机构不可能投 50 亿、100 亿美元去支持一个 AI 实验室,并期望它成长为 Anthropic。
这是我的判断失误。但即便当时我意识到了,我也不认为我们在那个阶段有能力去做这件事。
不过我不会再犯同样的错误了。我很高兴能投资 OpenAI,也很高兴帮助他们扩展,我认为这是必要的。当后来 Anthropic 来找我们时,我也很高兴成为投资人,帮助他们发展。
只是当初那个时间点,我们确实做不到。如果可以重来,如果当时英伟达已经像现在这样强大,我会非常愿意去做这些事情。
Dwarkesh Patel:
这很有意思。多年来,英伟达一直是在 AI 领域「卖铲子赚钱」的公司,而且赚了很多钱。而现在你们开始把这些钱投入进去。有报道称,你们在 OpenAI 上投资了 300 亿,在 Anthropic 上投资了 100 亿。而这些公司的估值还在持续上涨。
所以,如果回头看过去几年,你们给了他们算力,也看到了趋势,而当时它们的估值只有现在的十分之一,甚至一年前也还远低于现在。而你们当时已经有大量现金。
其实存在一种可能:英伟达自己成为基础模型公司,或者更早在更低估值时进行大规模投资,类似你现在做的这些事情。
所以我确实很好奇,为什么没有更早这样做?
Jensen Huang:
我们是在「能够做的时候」立刻去做的。如果当时可以,我会做得更早。在 Anthropic 当初需要我们支持的时候,我就会去做。但当时我们确实没有那个能力。
这不在我们的能力范围之内,也不在我们的决策惯性之内。
Dwarkesh Patel:
是资金的问题,还是?
Jensen Huang:
对,是投资规模的问题。我们当时几乎没有对外投资的传统,更不用说那种规模的投资。而且我们也没有意识到这是必要的。
我当时的想法是,他们完全可以去找风险投资,就像其他公司一样。但他们要做的事情,其实是风险投资无法支持的。OpenAI 想做的事情,也不是风险投资能支持的。
这是我后来才意识到的。但这正是他们的聪明之处。他们当时就意识到,必须走那样一条路径。我很高兴他们这么做了。即使我们当时没能参与,导致 Anthropic 转向了其他合作方,我仍然认为这是好事。Anthropic 的存在,对整个世界都是好事,我为此感到高兴。有一些遗憾是可以接受的。
Dwarkesh Patel:
那问题还是会回到一点:既然现在你们已经有这么多现金,而且还在持续增长,那英伟达应该如何使用这些资金?
一种思路是,现在出现了一个中间层生态,帮这些 AI 实验室把资本开支(capex)转化为运营开支(opex),让他们可以租用算力。
因为 GPU 很贵,但随着模型进步,它们在生命周期中可以持续产生更高价值的 token。而英伟达本身有能力承担这些前期资本开支。比如有报道称,你们为 CoreWeave 提供了高达 63 亿美元的支持,并投资了 20 亿。
那为什么英伟达不自己成为云厂商?为什么不成为一个 hyperscaler,自建云并出租算力?毕竟你们有这个现金能力。
Jensen Huang:
这是一个公司的哲学问题,而且我认为这是一个明智的哲学:我们应该做「必要的尽可能多的事,同时做尽可能少的事」。
这意味着,在构建计算平台这件事上,如果我们不做,我真的相信这件事就不会被完成。
如果我们不承担这些风险,不去构建 NVLink,不去构建整个软件栈,不去打造这个生态,不去投入 20 年时间做 CUDA(其中大部分时间甚至是亏钱的),如果我们不做这些事情,没有人会做。如果我们不去构建这些 CUDA-X 的领域专用库——无论是光线追踪、图像生成,还是早期 AI 模型、数据处理、结构化数据、向量数据处理——如果我们不做,这些东西就不会存在。
我对此是完全确信的。我们甚至为计算光刻开发了一个库叫 cuLitho,如果我们不做,也不会有人去做。
所以,加速计算之所以能发展到今天这个程度,是因为我们做了这些事情。这就是我们应该全力投入去做的部分。
但与此同时,世界上已经有很多云厂商了。即使我们不做,也会有人来做。所以基于「做尽可能多必要的事,但尽可能少做其他事」的原则,这个理念在公司里一直存在。我做的每一个决策,都会从这个角度出发。
在云这个领域,如果我们当初不支持 CoreWeave,这些新型 AI 云(neocloud)可能不会存在。如果我们不支持他们,他们不会发展到今天这个规模。像 Nscale、Nebius 也是一样,如果没有我们的支持,他们不会走到现在。而现在,它们发展得都很好。
但这是不是一个我们应该亲自去做的业务?不是。我们还是坚持那个原则:做必要的事情,其他尽量少做。所以我们会投资生态,是因为我希望整个生态能够繁荣。我希望我们的架构能够连接尽可能多的行业、尽可能多的国家,让 AI 能够在全球范围内被构建出来,并且建立在美国的技术栈之上。
这是我们正在推进的愿景。
同时,你刚才提到,现在有很多优秀的基础模型公司,我们会尽量去投资它们。
还有一点是,我们不会去「挑选赢家」。我们希望支持所有人。这既是我们的业务需要,也是我们愿意去做的事情。所以当我投资其中一家公司时,我也会投资其他公司。
Dwarkesh Patel:
那为什么你们会刻意不去挑选赢家?
Jensen Huang:
因为这不是我们的职责。第一点。
第二点,当英伟达刚成立的时候,有大约 60 家图形公司,60 家做 3D 图形的公司。最后只有我们活了下来。如果你当时在这 60 家公司里选一家会成功的,英伟达很可能是最不被看好的那一家。
这在你那个年代之前,但当时英伟达的图形架构是完全错误的。不是有一点点偏差,而是从根本上就是错的。我们设计了一个开发者几乎不可能支持的架构,本来是注定不会成功的。我们是基于很合理的第一性原理推导出来的,但最终走到了错误的解。
所有人都认为我们不可能成功,但我们最后还是活下来了。所以我有足够的谦逊去承认这一点,不要去挑选赢家。要么让他们自己发展,要么就支持所有人。
Dwarkesh Patel:
有一点我没太理解。你说你们并不是刻意去优先支持这些新云厂商,但你刚刚也提到,如果没有英伟达,它们可能不会存在。那这两点是怎么同时成立的?
Jensen Huang:
首先,它们必须自己想要存在,并且主动来找我们寻求帮助。当它们有明确的意愿、有商业计划、有能力、有热情的时候——当然,它们本身也必须具备一定的能力——如果在起步阶段需要一些投资支持,我们会在那里。
但关键是,它们要尽快建立起自己的飞轮。你刚才的问题是,我们是否想进入融资业务?答案是不想。我们不想成为金融机构。市场上已经有很多做融资的人,我们更愿意和这些金融机构合作,而不是自己去做融资。
所以我们的目标,是专注在我们自己的事情上,让商业模式尽可能简单,同时支持整个生态。
Jensen Huang:
当像 OpenAI 这样的公司,在 IPO 之前需要 300 亿美元规模的投资时,而我们又非常相信他们——我个人非常相信他们已经是一个非凡的公司,并且会成为更加卓越的公司。这个世界需要他们存在,大家也希望他们存在,我也希望他们存在。他们具备所有成为赢家的要素,那我们就支持他们、帮助他们扩张。
所以,这类投资我们会去做,因为他们确实需要我们这样做。但我们的原则不是「尽可能多做」,而是「尽可能少做」。
Dwarkesh Patel:
这个问题可能有点显而易见,但过去很多年,我们一直处在 GPU 短缺的状态,而且随着模型变强,这种情况更明显了。
Jensen Huang:
是的,我们确实存在 GPU 短缺。
Dwarkesh Patel:
而英伟达被认为在分配这些稀缺资源时,并不是单纯按出价最高来分,而是会考虑,比如要确保这些新云厂商存在——给 CoreWeave 一些、给 Crusoe 一些、给 Lambda 一些。
首先,你认同这种说法吗?其次,这对英伟达有什么好处?
Jensen Huang:
我认为你的前提是错误的。当然,我们会非常谨慎地看待这些事情。
首先,如果你没有下采购订单(PO),再多的沟通都没有意义。所以第一点,我们会和所有客户一起努力做好需求预测,因为这些产品的生产周期很长,数据中心建设周期也很长。我们通过预测来对齐供需,这是第一件事。
第二,我们会尽可能和更多客户一起做预测。但最终,你还是必须下订单。如果你没有下订单,那我也无能为力。所以在某个阶段,就是「先下单先服务」。
但除此之外,如果你的数据中心还没准备好,或者某些关键组件还没准备好,导致你暂时无法部署系统,我们可能会优先服务其他客户。这只是为了最大化我们工厂的整体吞吐效率。
除了这种情况,优先级原则就是「先来先服务」。你必须下订单。如果你不下订单,那就没有办法。
当然,外界有很多故事,比如有人说 Larry 和 Elon 和我吃饭时请求 GPU——我们确实一起吃过饭,那是一次很愉快的晚餐,但他们从来没有「请求」过 GPU。他们只需要下订单就可以。一旦下单,我们就会尽最大努力提供产能。事情没有那么复杂。
Dwarkesh Patel:
所以听起来像是一个排队机制,取决于你什么时候下单、数据中心是否准备好。但这仍然不是单纯「出价最高者得」,对吗?
Jensen Huang:
我们从来不这样做。
Dwarkesh Patel:
从不按最高出价来分配?
Jensen Huang:
从不。因为这是很糟糕的商业做法。
你设定价格,客户决定买不买。我知道行业里有些公司会在需求上升时提高价格,但我们不会。这从来不是我们的做法。客户可以依赖我们。我更愿意成为一个可靠的存在,成为行业的基础。你不需要去猜测价格变化。
如果我给了你一个报价,那就是最终价格。即使需求暴涨,也不会改变。
Dwarkesh Patel:
那这也是你们和台积电关系稳定的原因之一,对吧?
Jensen Huang:
英伟达和台积电已经合作快 30 年了。英伟达和台积电之间甚至没有正式的法律合同,彼此之间更多是一种大致公平的默契。有时候我是对的,有时候我是错的;有时候我拿到了更好的条件,有时候条件没那么好。但整体来看,这段关系非常了不起,我可以完全信任他们,也可以完全依赖他们。
而且,对英伟达来说,有一点你是可以确定的:今年 Rubin 会非常出色,明年 Vera Rubin Ultra 会推出,再下一年 Feynman 会推出,再下一年——那个名字我还没公布。也就是说,每一年,你都可以信赖我们。你得去全世界再找一个 ASIC 团队,看看有没有哪一家能让你说:我可以把整个公司押上去,相信你每一年都会在这里支持我。
我的 token 成本会每年按一个数量级下降,我可以像相信时钟一样相信这件事。我刚才关于台积电也说了类似的话。历史上没有任何一家晶圆厂能让你这样说。
但今天,你可以对英伟达这样说。你可以每一年都信赖我们。
如果你想买 10 亿美元的 AI 工厂算力,没有问题;如果你想买 1 亿美元,也没有问题;如果你想买 1000 万美元,甚至只买一个机架,也没问题;就算你只想买一张显卡,也没问题。如果你想下一个 1000 亿美元的 AI 工厂订单,也没有问题。
今天,全世界只有我们这一家公司可以这样说。而我也可以对台积电这样说:我想买 10 亿美元,没有问题。我们只需要一起做好规划,走完该走的流程,做成熟企业都会做的那些事情。
所以,我认为,英伟达能够成为全球 AI 产业的基础,这个位置是我们花了几十年才走到的。这里面有巨大的投入、巨大的专注,而公司的稳定性与一致性,是非常重要的。
Dwarkesh Patel :
这其实引出了一个很有意思的问题。我们之前聊过台积电、内存这些瓶颈。现在如果进入这样一个世界:你们已经占了 N3 的大部分产能,之后可能也会占 N2 的大部分产能。你会不会考虑回头去用 7 纳米之类的旧工艺节点的闲置产能?
比如 AI 的需求太大了,最先进制程的扩产又跟不上,那你们就用今天关于数值优化、系统设计的全部经验,重新做一个 Hopper 或者 Ampere 版本。你觉得这种情况会不会在 2030 年之前出现?
Jensen Huang:
没这个必要。原因是,每一代架构的进步都不只是晶体管尺寸的变化。你还在封装、堆叠、数值系统、系统架构上做了大量工程工作。等到你走到这一步,再回头去做一个旧节点版本,那需要投入的研发规模是没人负担得起的。我们能负担得起继续往前走,但我不认为我们负担得起回头走。
当然,如果做一个思想实验:假设有一天全世界都说,先进产能永远不可能再增加了。那我会不会立刻回去用 7 纳米?当然会,毫无疑问。
Dwarkesh Patel:
我之前和别人聊到一个问题:为什么英伟达不同时推进多个完全不同的芯片项目?比如你可以做一个像 Cerebras 那样的晶圆级架构,可以做一个像 Dojo 那样的大封装,也可以做一个不依赖 CUDA 的东西。
你们有资源,也有工程人才,可以并行做这些事。既然没人知道 AI 或架构未来到底会往哪走,为什么要把鸡蛋都放在一个篮子里?
Jensen Huang:
我们当然可以这么做。只是我们没有看到更好的方案。这些东西我们都模拟过了,在我们的仿真器里大概率都更差。所以我们不会去做。我们现在做的,就是我们真正想做、也认为最正确的那些项目。
当然,如果未来工作负载本身发生剧烈变化——我说的不是算法变化,而是工作负载真的变了,那我们也可能会加入其他类型的加速器。
比如最近我们加入了 Grok,我们会把 Grok 纳入 CUDA 生态。我们现在就在做这件事。这是因为 token 的价值已经变得非常高了,所以同一个模型、基于不同的响应速度,可能会对应不同的价格层级。
几年前,token 几乎是免费的,或者说便宜得几乎等于免费。但现在,不同客户对 token 的要求不一样。而且这些客户本身可以从中赚很多钱。比如说,对软件工程师来说,如果我能给他们更快响应的 token,让他们比今天更高效,那我是愿意为此付钱的。
但这样的市场,其实是最近才出现的。所以我认为,现在我们第一次真正有能力让同一个模型基于响应时间形成不同市场分层。
这也是为什么我们决定扩展这条帕累托前沿,去做一种「响应更快、但吞吐更低」的推理分支。因为过去,高吞吐总是最重要的。但我们现在认为,未来可能会出现一种高 ASP(高单价)的 token。即使工厂里的吞吐更低,单价也足以弥补它。
这就是我们这么做的原因。但如果只谈架构本身,我会说,如果我有更多钱,我会把更多钱投到现有架构上。
Dwarkesh Patel :
我觉得这种「极高溢价 token」以及推理市场分层的想法非常有意思。
最后一个问题。假设深度学习革命从来没有发生过,英伟达今天会在做什么?
Jensen Huang:
当然,游戏还是会做,但除此之外,还是加速计算。我们一直在做的,本来就是这个。
我们公司的基本前提是:摩尔定律会放缓。通用计算对很多事情都很好,但对很多计算任务来说并不是理想方案。所以我们把 GPU 这种架构和 CPU 结合起来,让它去加速 CPU 的工作负载。不同的代码 kernel、不同的算法,都可以被卸载到 GPU 上运行。这样一来,一个应用就可以加速 100 倍、200 倍。
那它能用在哪里?当然是工程、科学、物理、数据处理、计算机图形学、图像生成,各种地方。
所以即便今天 AI 不存在,英伟达依然会是一家非常大的公司。原因其实很根本:通用计算继续扩展的能力,已经基本走到头了。而提升性能的一种方式——不是唯一方式,但很重要的一种方式——就是做领域专用加速。
我们一开始切入的是计算机图形学,但还有很多其他领域。比如各种科学计算、粒子物理、流体模拟、结构化数据处理等等,各种不同类型的算法都会从 CUDA 中受益。
所以我们的使命一直都是把加速计算带给这个世界,推动那些通用计算做不到、或者无法扩展到足够能力级别的应用继续往前发展,帮助科学领域实现突破。我们最早的一些应用,就是分子动力学、能源勘探中的地震处理,当然还有图像处理。
所有这些领域,通用计算本身都太低效了。所以,是的,如果没有 AI,我会很难过。但正是因为我们在计算上的进步,我们把深度学习民主化了。我们让任何研究者、任何科学家、任何学生,在任何地方,都能用一台 PC、或者一块 GeForce 显卡,做出很惊人的科学研究。而这个最根本的承诺,从来没有变过,一点都没有。
所以如果你去看 GTC,你会发现最开始很大一部分内容其实根本不是 AI。无论是计算光刻、量子化学,还是数据处理,那些都和 AI 无关,但依然非常重要。我知道 AI 很有趣,也很令人兴奋。
但仍然有很多人在做非常重要、但与 AI 无关的工作。Tensor 也不是他们唯一的计算方式。而我们希望帮助所有这些人。
Dwarkesh Patel:
Jensen,非常感谢你。
Jensen Huang:
不客气,我很享受这次对话。