中国人工智能公司DeepSeek在某些方面接近美国前沿AI模型的性能,且成本更低。AI发展的三大动态包括规模定律、曲线移动和范式转变,影响模型训练和推理成本。DeepSeek的最新模型展示了工程效率的创新,但其成本优势符合预期的成本下降趋势,并未从根本上改变AI经济学。尽管DeepSeek在芯片资源上与美国公司相当,但其发展未能显著影响全球AI竞争格局。
原文标题:On DeepSeek and Export Controls
原文作者:Dario Amodei
原文来源:darioamodei.com
编译:Daisy,火星财经
在这里,我不会重点讨论DeepSeek是否对Anthropic等美国AI公司构成威胁(尽管我认为关于他们威胁美国AI领导地位的许多说法被大大夸大了)。中国人工智能公司DeepSeek已经在某些方面成功接近了美国前沿AI模型的性能,而且成本更低。
在我提出政策论点之前,我将描述三个了解AI系统至关重要的基本动态:
上面提到的三大动态可以帮助我们理解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——上文提到的第3阶段。然后,上周他们发布了“R1”,增加了第二阶段。虽然我们无法从外部完全确定这些模型的所有细节,但以下是我对这两个发布的最佳理解。
DeepSeek-V3 实际上是一个真正的创新,应该在一个月前就引起人们的注意(我们确实注意到了)。作为一个预训练模型,它似乎在一些重要任务上接近美国前沿模型的性能,同时训练成本大大低于美国的同类模型(尽管我们发现Claude 3.5 Sonnet在一些其他关键任务上,尤其是实际编码任务中,表现明显更好)。DeepSeek的团队通过一些真正且令人印象深刻的创新实现了这一点,主要集中在工程效率方面。特别是,他们在管理“键值缓存”方面进行了创新,并使得“专家混合”方法(mixture of experts)得到了比以往更深入的应用。
然而,重要的是要更仔细地观察:
DeepSeek并没有“用600万美元做到了美国AI公司需要数十亿美元才能做的事”。我只能代表Anthropic发言,但Claude 3.5 Sonnet是一个中型模型,训练成本为数千万美元(我不会给出确切数字)。此外,Sonnet的训练并没有涉及到更大或更昂贵的模型(这与一些流言相反)。Sonnet的训练发生在9到12个月前,而DeepSeek的模型是在11月或12月训练的,Sonnet在许多内部和外部评估中仍然明显领先。因此,我认为一个公平的说法是:“DeepSeek生产了一个接近美国模型性能(大约7-10个月前的版本)的模型,且成本显著低得多(但远未达到人们所建议的比率)”。
如果历史上成本曲线下降的趋势是每年约4倍,这意味着按常规的历史成本降低趋势(如2023年和2024年发生的情况),我们现在应该会看到一个比3.5 Sonnet/GPT-4便宜3-4倍的模型。由于DeepSeek-V3不如这些美国前沿模型——假设它在扩展曲线上大约落后2倍,这对DeepSeek-V3来说是相当慷慨的——那么,DeepSeek-V3的训练成本比一年前开发的美国模型低8倍是完全正常、符合趋势的。如果按DeepSeek的训练成本来看,它们最多也只是符合趋势,可能甚至不到这个水平。例如,这比原版GPT-4和Claude 3.5 Sonnet推理价格差异(10倍)还要小,而3.5 Sonnet是比GPT-4更好的模型。所有这些表明,DeepSeek-V3并不是一个独特的突破,或是从根本上改变了大语言模型经济学的事件;它只是一个在持续成本降低曲线上的预期节点。不同之处在于,第一个展示出预期成本降低的公司是中国公司,这在地缘政治上具有重要意义。然而,美国公司很快也会效仿——而他们不会通过复制DeepSeek来实现,而是因为他们也在实现通常的成本降低趋势。
DeepSeek和美国AI公司都比过去有更多资金和更多芯片来训练他们的主打模型。这些额外的芯片用于研发以开发模型背后的理念,有时还用于训练尚未准备好的更大模型(或者需要多次尝试才能训练成功)。据报道——我们无法确认这是否属实——DeepSeek实际上拥有50,000颗Hopper芯片,我猜这与主要的美国AI公司拥有的数量(例如,它比xAI的“Colossus”集群少2-3倍)大致相当。这50,000颗Hopper芯片的成本约为10亿美元。因此,DeepSeek作为公司整体的开销(与训练单个模型的开销区别开来)与美国AI实验室的开销并没有本质区别。
值得注意的是,“扩展曲线”分析有些过于简化,因为模型是有所不同的,具有不同的优势和劣势;扩展曲线的数字是粗略的平均值,忽略了许多细节。我只能谈论Anthropic的模型,但正如我上面所暗示的,Claude在编码和与人互动的设计风格方面非常优秀(许多人用它提供个人建议或支持)。在这些和一些其他任务上,DeepSeek根本无法与其相提并论。这些因素并没有体现在扩展曲线的数字上。
R1是上周发布的模型,引发了广泛的公众关注(包括Nvidia股价下降约17%),从创新或工程角度来看,它远不如V3那么有趣。R1增加了训练的第二阶段——强化学习,这是前一部分中提到的第3阶段——并基本上复制了OpenAI通过o1模型所做的工作(它们似乎在规模和结果上相似)。然而,由于我们仍处于扩展曲线的早期阶段,多个公司在拥有强大的预训练模型的基础上能够生产这种类型的模型。因此,给V3训练出R1可能非常便宜。我们现在处于一个有趣的“交叉点”,在这个交叉点上,暂时有多个公司能够生产出优秀的推理模型。但随着大家在这些模型上进一步向扩展曲线的上游推进,这种情况很快将不再成立。
目前,尽管每当曲线发生变化、训练相同智能水平的模型成本迅速下降,但公司在训练强大AI模型上的支出却越来越高。训练更智能的模型的经济价值如此巨大,以至于任何成本上的节省几乎会立即被消耗——它们会被重新投入到训练更智能的模型中,以相同巨大的成本,达到原计划的支出水平。美国实验室如果尚未发现这些效率创新,DeepSeek所开发的创新很快会被美国和中国的实验室应用,用于训练数十亿美元的模型。这些新模型将比原本计划训练的数十亿模型表现更好——但它们的花费仍然是数十亿美元。这些支出将继续增加,直到我们训练出比几乎所有人类在各个方面都更智能的AI。
训练出比几乎所有人类更智能的AI需要数百万个芯片,至少数百亿美元的资金,而且最可能在2026-2027年间实现。DeepSeek的发布并未改变这一点,因为它们基本上处于预期的成本下降曲线之内,这在这些计算中早已考虑到。
这意味着在2026-2027年,我们可能会进入两个截然不同的世界之一。在美国,多个公司肯定会拥有数百万个芯片(花费数百亿美元)。问题在于中国是否也能获得数百万个芯片。
DeepSeek的表现并不意味着出口管制失败。正如我前面所说,DeepSeek拥有适量的芯片,因此它们能够开发并训练出强大的模型并不令人惊讶。它们并没有明显比美国AI公司更受资源限制,出口管制也不是促使他们“创新”的主要因素。DeepSeek的团队只是非常有才华的工程师.
观察DeepSeek目前拥有的芯片也很有启发。根据SemiAnalysis的报道,这些芯片包括H100、H800和H20,总数达到50,000颗。Nvidia表示DeepSeek的进展是“完全符合出口管制规定的”。H800在2022年的首次出口管制中是被允许的,但在2023年10月的更新后被禁运,因此这些芯片可能是在禁令之前运送的。H20在训练方面效率较低,但在采样方面效率更高所有这些说明,DeepSeek的AI芯片阵容中有相当一部分是那些还未被禁运的芯片。
鉴于我对出口管制和美国国家安全的关注,我想明确一点。我并不认为DeepSeek本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、有好奇心的研究人员,只是想开发有用的技术。