华为达芬奇与英伟达CUDA，必有一战！

一蓑烟雨2024-06-14热度: 14675

英特尔和微软的Wintel曾长期主导电脑市场，现在英伟达的CUDA也成为构建应用生态的重要力量。华为推出的达芬奇架构具备高算力、高能效、灵活可裁剪的特性，是实现全栈全场景AI战略的关键。与CUDA相比，达芬奇专注于端侧、边缘侧和云端的AI应用，但仍受限于生态建设。英伟达限制其他芯片使用CUDA软件，被指垄断市场，华为需要更多依赖自主研发的软件工具和开发环境。未来，英伟达的限制可能影响华为GPU在高性能计算、AI等领域的市场接受度，也加强了华为构建自身AI生态的紧迫性。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

原文作者：一蓑烟雨

原文来源：数据猿

英伟达

当初英特尔和微软，搞出来个Wintel，制霸电脑时代很多年。

从某种意义上，英伟达的CUDA，就相当于CPU时代的windows，承担了构建应用生态的重任。而生态的壁垒，是比芯片性能更深厚的竞争壁垒。所以，CUDA才是英伟达最大的王牌。

在CPU时代，我们被Wintel压制了很多年。在AI时代，英伟达集GPU和CUDA于一身，会是另一个难以打破的Wintel么？目前看是的。

由于美国对中国AI产业的打压，芯片这张牌被用的越来越频繁。不仅美国政府，就是英伟达自身处于商业竞争的考虑，也越来越倾向于“打牌”。而CUDA，就是英伟达最大的王牌。中国要在AI计算领域突破封锁，不仅要有自己的GPU，也要有自己的CUDA。要做成这件事情，目前来看，似乎只有靠华为了。

CUDA才是英伟达最深的护城河

在图形渲染的世界中，英伟达以其精湛的GPU技术赢得了市场的青睐。然而，英伟达并未止步于此，它的目光早已超越了图形渲染的边界，投向了更为广阔的计算领域。2006年，英伟达推出了CUDA（Compute Unified Device Architecture），这一举措标志着英伟达从图形渲染巨头向计算巨头的华丽转身。

英伟达

CUDA的发展历程中，有几个关键节点：

2007年：CUDA 1.0的发布，开放了GPU的通用计算能力，为开发者提供了进入GPU编程世界的钥匙。

2008年：CUDA 2.0增加了对双精度浮点运算的支持，这对于科学计算和工程模拟等领域至关重要。

2010年：CUDA 3.0进一步扩展了GPU的并行处理能力，为更复杂的计算任务提供了支持。

2012年：CUDA 5.0引入了动态并行性，允许GPU内核自我复制，极大地提升了程序的灵活性和效率。

这些版本不仅推动了CUDA技术的进步，也成为了GPU并行计算发展史上的重要里程碑。

英伟达

CUDA的核心在于其创新的并行计算模型，通过将计算任务分解为成千上万的线程，CUDA能够在GPU上实现前所未有的并行处理能力。这种模型不仅极大地提高了计算效率，也使得GPU成为了解决复杂计算问题的理想平台。从深度学习到科学模拟，CUDA定义了并行计算的新纪元，开启了高性能计算的新篇章。

随着AI和大数据的兴起，CUDA的市场影响力不断扩大。开发者们纷纷转向CUDA，以利用GPU的强大计算能力来加速他们的应用程序。企业也认识到了CUDA的价值，将其作为提升产品性能和竞争力的关键技术。根据统计数据，CUDA的下载量已经超过了3300万次。

对于英伟达而言，CUDA已经成为英伟达最深的护城河。它不仅巩固了英伟达在GPU市场的领导地位，更为英伟达打开了进入高性能计算、深度学习、自动驾驶等多个前沿领域的大门。随着技术的不断进步和市场的不断扩大，CUDA无疑将继续扮演着英伟达最深护城河的角色，引领着计算技术的未来。

比CUDA晚了12年的达芬奇架构，能撑得起华为的AI野心么？

达芬奇架构，作为华为自研的AI计算架构，其起源与华为对AI未来应用的深远洞察密切相关。早在几年前，华为就预测到2025年，全球智能终端的数量将达到400亿台，智能助理的普及率将达到90%，企业数据的使用率将达到86%。基于这样的预测，华为在2018年全联接大会上提出全栈全场景AI战略，并设计了达芬奇计算架构，以在不同体积和功耗条件下提供强劲的AI算力。

达芬奇架构的发展可以追溯到2018年，华为推出的AI芯片Ascend 310（昇腾310）首次亮相，标志着达芬奇架构的正式应用。紧接着，华为在2019年6月发布了全新8系列手机SoC芯片麒麟810，首次采用达芬奇架构NPU，实现了业界领先的端侧AI算力。麒麟810在AI Benchmark榜单中表现卓越，证明了达芬奇架构的实力。

达芬奇架构是专为AI计算特征而设计的全新计算架构，具备高算力、高能效、灵活可裁剪的特性。其核心优势在于采用3D Cube针对矩阵运算做加速，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。此外，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元，并支持多种精度计算，支撑训练和推理两种场景的数据精度要求。

达芬奇架构的应用领域广泛，覆盖了从端侧到云端的全场景AI应用。在端侧，麒麟810芯片的AI算力已经在智能手机中得到应用，为消费者提供了丰富的AI应用体验。在边缘侧和云端，Ascend系列AI处理器可以满足从几十毫瓦到几百瓦的训练场景，提供最优的AI算力。达芬奇架构的灵活性和高效性，使其在智慧城市、自动驾驶、工业制造等多个领域中发挥着重要作用。

诚然，达芬奇架构在华为的AI市场布局中占据了核心的位置。它不仅是华为AI芯片的技术基础，也是华为实现全栈全场景AI战略的重要支撑。通过达芬奇架构，华为能够提供从硬件到软件的全栈AI解决方案，加速AI技术的产业化和应用落地。此外，达芬奇架构的统一性也为开发者带来了便利，降低了开发和迁移成本，促进了AI应用的创新和发展。

达芬奇VS CUDA，有几分胜算？

相比于2006年推出的CUDA，华为达芬奇要晚了12个年头。这12年中，达芬奇一直在追赶。除了时间上的差距，达芬奇和CUDA还在架构设计哲学、性能表现、工具链、开发者生态等多个层面存在显著的差异。

在设计哲学方面，CUDA是英伟达开发的并行计算平台和API模型，它允许开发者使用NVIDIA的GPU进行高效的并行计算。而达芬奇架构是华为自研的面向AI计算特征的全新计算架构，它采用了3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力。CUDA的设计更注重通用性，而达芬奇则专注于AI计算的高效性。

在AI计算性能方面，CUDA和达芬奇各有千秋。CUDA凭借多年的技术积累，支持大规模并行处理能力，适合处理各种复杂的计算任务。达芬奇架构则通过其3D Cube计算引擎，针对矩阵运算进行优化，实现了在单位面积下的AI算力显著提升。在深度学习等AI应用场景中，达芬奇架构展现出了优秀的性能表现。

CUDA和达芬奇架构在不同领域下的适用性各有侧重，CUDA由于其通用性，被广泛应用于科学研究、医学、金融等多个领域。而达芬奇架构则主要针对AI计算，特别是在端侧、边缘侧及云端的AI应用场景中，如智能手机、自动驾驶、云业务等。

从开发者的角度来看，CUDA和达芬奇架构在编程模型与工具链的易用性上有所不同。CUDA提供了一套完整的开发工具链，包括CUDA编译器、调试器、性能分析工具等，支持多种编程语言和深度学习框架。达芬奇架构虽然起步较晚，但华为也在积极构建其工具链和开发者生态，提供必要的支持以促进开发者的使用和创新。但从工具链的完整性和丰富度来看，达芬奇离CUDA还有不少的差距。

CUDA通过其广泛的应用和成熟的技术，已经建立了一个庞大的开发者社区和生态系统。而生态的建设，是比单纯提升GPU性能更难得事情，这才是对华为真正的考验。