AI为什么离不开区块链——来看DePIN如何助力人工智能

Catrina2023-06-16热度: 20662

每一波技术创新的引子都是某种昂贵的东西变得廉价到可以浪费。

原文作者：Catrina，Filecoin洞察特约撰稿人、Portal Ventures投资合伙人

原文来源：Filecoin

过去，初创企业凭借其速度、灵活度和创业文化，摆脱组织惯性桎梏，长期引领着技术创新。然而，这一切被人工智能时代改写。迄今为止，突破性AI产品的缔造者都是诸如Microsoft的OpenAI、Nvidia、Google甚至Meta这样的传统科技巨头。

发生了什么？为什么这一次巨头赢过了初创？初创企业可以写出优秀代码，但与科技巨头相比，它们面临多种阻碍：

计算成本居高不下
AI发展存在反向凸角：由于缺少必要的方针，围绕AI社会影响的担忧和不确定性阻碍了创新
AI黑盒问题
大型科技公司建立的“数据护城河”形成进入壁垒

那么，为什么需要区块链技术出场？它与人工智能的交集在哪？虽然不能一次性解决所有问题，但Web3中的分布式物理基础设施网络（DePIN）为解决上述问题创造了条件。下文将阐述DePIN背后的技术如何助力人工智能，主要从四个维度：

降低基础设施成本
验证创作者和人格
填补AI民主和透明度
设置数据贡献奖励机制

下文中：

“web3”指下一代互联网，区块链技术与其他现有技术是其有机组成。
“区块链”指去中心化和分布式账本技术。
“加密”指利用代币机制进行激励和去中心化的做法。

一、降低基础设施成本（计算和存储）

每一波技术创新的引子都是某种昂贵的东西变得廉价到可以浪费。

——社会的技术债务和软件的古腾堡时刻（https://skventures.substack.com/p/societys-technical-debt-and-softwares），来自SK Ventures

基础设施的可负担性有多重要（人工智能的基础设施指计算、传输和存储数据的硬件成本），Carlota Perez的技术革命理论（https://stratechery.com/2021/the-death-and-birth-of-technological-revolutions/）有指明，该理论提出技术突破包含两个阶段：

IPFS

来源：Carlota Perez的技术革命理论

安装阶段以大量风险投资、基础设施建设和“推动式”市场推广（GTM）策略为特征，因为客户不了解新技术的价值主张。
部署阶段以基础设施供应的大量增加为特征，降低拉新门槛，并采用“拉动式”市场推广（GTM）策略，表明产品市场匹配度高，客户期待更多尚未成型的产品。

既然ChatGPT等尝试已证明市场契合度和客户需求，人们可能觉得AI已经进入部署阶段。然而，AI还缺少重要一环：过剩的基础设施供价格敏感的初创企业进行搭建和尝试。

问题

当前物理基础设施领域主要由垂直一体化寡头垄断，包括AWS、GCP、Azure、Nvidia、Cloudflare、Akamai等，行业利润率高，据估计AWS在商品化计算硬件上的毛利率为61%（https://www.cnbc.com/2021/09/05/how-amazon-web-services-makes-money-estimated-margins-by-service.html）。所以AI领域、尤其是LLM领域的新进入者要面对及其高昂的计算成本。

ChatGPT一次训练的成本估计在4百万美元，硬件推理运营成本约70万美元/天。
Bloom第二版可能需要花费1000万美元进行训练和重新训练。
如果ChatGPT进入Google搜索，谷歌营收将减少360亿美元，巨额利润将从软件平台（Google）向硬件提供商（Nvidia）转移。

IPFS

来源：层层分析— LLM搜索架构与成本

解决方案

DePIN网络如Filecoin（起源于2014年的DePIN先驱，专注集合互联网级硬件，服务于分布式数据存储）、Bacalhau（https://www.bacalhau.org/）、Gensyn.ai（http://gensyn.ai/）、Render Network（https://rendertoken.com/）、ExaBits（用于匹配CPU/GPU供需的协调层：https://www.exabits.xyz/）可以通过以下三个方面节约75%至90%+的基础设施成本：

1. 推动供应曲线，激发市场竞争

DePIN为硬件供应商成为服务提供商提供了平等机会。它创建了一个人人可以作为“矿工”加入，用CPU/GPU或存储能力可换取经济报酬的市场，从而给现有提供商带来竞争。

虽然像AWS这样的公司无疑在用户界面、运营和垂直整合方面享有17年的先发优势，但是DePIN吸引了无法接受中心化供应商客定价的新户群。就像Ebay不直接与Bloomingdale竞争，而是提供更经济的替代品来满足类似需求，分布式存储网络并不取代中心化供应商，而是旨在服务于价格敏感的用户群体。

2.通过加密经济设计促进市场经济平衡

DePIN创建的补贴机制能引导硬件供应者参与网络，从而降低最终用户的成本。究其原理，我们可以看看AWS和Filecoin在Web2和Web3中存储提供者的成本和收入。

IPFS

客户获得降价：DePIN网络营造了竞争性市场，引入Bertrand式竞争（https://en.wikipedia.org/wiki/Bertrand_competition），从而降低客户支付费用。相比之下，AWS EC2需要约55%的利润率和31%的总体利润率来维持运营。DePIN网络提供的Token激励/区块奖励也是新的收入来源。在Filecoin的背景下，存储提供者托管越多真实数据越能获得区块奖励（代币）。因此，存储提供者有动力吸引更多客户达成交易增加收入。几个新兴计算DePIN网络的代币结构仍未公开，但很可能遵循类似模式。类似网络包括：

Bacalhau：将计算引入数据存储位置的协调层，避免移动大量数据。
exaBITS：服务于AI和计算密集型应用程序的分布式计算网络。
Gensyn.ai：深度学习模型计算协议。

3. 降低间接成本：Bacalhau、exaBITS等DePIN网络以及IPFS/内容寻址存储的优势包括：

释放潜在数据的可用性：由于传输大型数据集的带宽成本高，目前大量数据未被开发，比如体育场馆产生的大量事件数据。DePIN项目可以现场处理数据并仅传输有意义的输出，发掘潜在数据的可用性。
降低运营成本：通过本地获取数据来降低数据输入、传输和导入/导出成本。
最小化敏感数据共享中的人工作业：如果医院A和B需要将各自患者的敏感数据进行组合分析，它们可以使用 Bacalhau协调GPU算力，直接在本地处理敏感数据，而不必通过繁琐的行政流程与对方进行个人身份信息（PII）交换。
无需重计算基础数据集：IPFS/内容寻址存储自带去重、溯源和验证数据的能力。有关IPFS的功能和性价比可参考这篇文章（https://curiouscat178.substack.com/p/the-non-philosophical-business-case）。

AI生成摘要：AI需要DePIN提供的经济实惠的基础设施，目前基础设施市场由垂直一体化的寡头垄断。像 Filecoin、Bacalhau、Render Network、ExaBits这样的DePIN网络使成为硬件供应商的机会民主化，引入竞争，通过加密经济设计维护市场经济平衡，让成本降低75%-90%以上，并降低了间接成本。

二、验证创作者和人格

问题

一份近期调研显示，50%的AI学者认为AI给人类带来毁灭性伤害的可能性超过10%。

人们需要警醒，A.I.已经引发社会混乱，而且仍缺乏监管或技术规范，这种情况被称为“反向凸角”。

比如，在这段 Twitter视频（https://twitter.com/zachsilberberg/status/1626665046175539224）中，播客主持人Joe Rogan与保守评论员Ben Shapiro在就电影《料理鼠王》进行着辩论，然而这段视频是AI生成的。

IPFS

来源：Bloomberg

值得注意的是，A.I.的社会影响力远不止虚假博客、对话和图像带来的问题：

2024年美国大选期间，AI生成的deepfake竞选内容首次达到了以假乱真的效果。
参议员Elizabeth Warren的一段视频经过编辑，让她“说”出了"共和党人不应该被允许投票"这样的话（已辟谣）。
语音合成的拜登的声音批评跨性别女性。
一群艺术家对Midjourney和Stability AI提起了集体诉讼，指控其未经授权使用艺术家的作品来训练AI，侵犯版权并威胁艺术家生计。
AI生成的由The Weeknd和Drake合唱的歌曲“Heart on My Sleeve”在流媒体平台上走红，但随后被下架。当新技术在没有规范的情况下进入主流，就会造成诸多问题，版权侵犯就属于“反向凸角”问题。

那么我们能否在Web3中加入AI的相关规范？

解决方案

利用加密链上来源证明进行人格证明和创作者证明

让区块链技术真正发挥作用——作为一个包含不可篡改链上历史记录的分布式账本，数字内容的真实性可以通过内容加密证明得到验证。

数字签名作为创作者证明和人格证明

要识别deepfake，可用原始内容创作者独有的数字签名生成加密证明，签名可以使用只有创作者知晓的私钥创建，并可由对所有人公开的公钥进行验证。有了签名就可以证明内容是由原始创作者创建，不论创建者是人类还是AI，还可以验证授权或未授权的对内容的更改。

利用IPFS和默克尔树进行真实性证明

IPFS是使用内容寻址和默克尔树引用大型数据集的分布式协议。为了证明文件内容收到、更改，会生成一个默克尔证明，即一串哈希，显示特定的数据块在默克尔树中的位置。每次更改，都会在默克尔树中增加一个哈希，提供了文件修改的证明。

加密方案的痛点是激励机制，毕竟，识别出deepfake制造者虽然能减少负面社会影响，但不会带来同等的经济利益。这份责任很可能落在Twitter、Meta、Google等主流媒体分发平台上，事实也的确如此。那么我们为什么需要区块链？

答案是区块链的加密签名和真实性证明更加有效、可验证和确定。目前，检测deepfake的过程主要通过机器学习算法（如Meta的“Deepfake Detection Challenge”、Google的“Asymmetric Numeral Systems” (ANS)和c2pa：https://c2pa.org/）来识别视觉内容中的规律和异常，但时常不够准确，落后于deepfake发展速度。一般需要人工审核来确定真实性，低效且昂贵。

如果有一天每条内容都有加密签名，每个人都能可验证地证明创作来源，标记篡改或伪造行为，那我们将迎来美丽的世界。

AI生成摘要：AI可能对社会构成重大威胁，尤其是deepfake和未授权使用内容，而Web3技术，如使用数字签名的创作者证明和使用IPFS和默克尔树的真实性证明，可以验证数字内容的真实性，防止未经授权的更改，为AI提供规范。

三、AI民主化

问题

今天的AI是由专有数据和专有算法构成的黑盒。大型科技公司LLM的封闭性扼杀了我眼中的“AI民主”，即每个开发者甚至用户都能为LLM模型贡献算法和数据，并在模型盈利时获得部分利润（相关文章：https://curiouscat178.substack.com/p/four-foundational-pillars-to-usher）。

AI民主=可视性（能看到输入模型的数据和算法）+贡献（能向模型贡献数据或算法）。

解决方案

AI民主的目的是让生成式AI模型对公众开放、与公众相关、为公众所有。下表对比了AI现状与通过Web3区块链技术能实现的未来。

IPFS

目前——

对于客户：

单向接收LLM输出
无法控制个人数据如何被使用

对于开发者：

可组合性低
ETL数据处理不可追溯，难复现
数据贡献来源仅限于数据所有机构
闭源模型只能通过API付费访问
分享数据输出缺乏可验证性，数据科学家80%的时间用于低端数据清洗

结合区块链后——

对于客户：

用户可提供反馈（比如偏见、内容审核、针对输出的颗粒度反馈）作为微调依据

用户可选择贡献数据换取模型盈利后的利润

对于开发者：

分布式数据管理层：众包重复耗时的数据标记等数据准备工作
可视性&组合&微调算法的能力，借助可验证源（可以看到所有改动的防篡改历史记录）
数据主权（通过内容寻址/IPFS实现）和算法主权（例如Urbit实现了数据和算法的点对点组合和可移植性）
加速LLM创新，从基础开源模型的各种变体中加速LLM创新。
可复现训练数据输出，通过区块链对过去ETL操作和查询的不可变记录（如Kamu）实现。

有人说Web2的开源平台也提供了一种折中方案，但其效果并不理想，相关讨论可见exaBITS（https://twitter.com/exa_bits）的博文（https://medium.com/decentralizedcomputing/breaking-barriers-transparent-ais-quest-for-open-and-equitable-ai-development-1b8aab113df0）。

AI生成摘要：大型科技公司封闭的LLM扼杀了“AI民主”，即每个开发者或用户都能够为一个LLM模型贡献算法和数据，并在模型盈利时获得部分利润。AI应该对公众开放，与公众相关，为公众所有。借助区块链网络，用户能够提供反馈，为模型贡献数据换取变现后的利润，开发者也能获得可视性和可验证源，从而组合和微调算法。内容寻址/IPFS和Urbit等Web3创新将实现数据和算法主权。通过区块链对过去ETL操作和查询的不可变记录，训练数据输出的可复现性也将成为可能。

四、设置数据贡献奖励机制

问题

今天，最有价值的消费者数据为大型科技公司的专有资产，构成其核心商业壁垒。科技巨头没有动力将这些数据与外部方共享。

那么，为什么我们不能直接从数据创造者或用户那里获取数据呢？为什么我们不能把数据变成公共资源，贡献数据将数据开源化供数据科学家使用？

简单来说是因为缺乏激励机制和协调机制。维护数据和执行ETL（提取、转换和加载）是一大笔间接成本。事实上，仅数据存储就将在2030年成为价值7770亿美元的行业，这还不包括计算成本。没有人会无偿承担数据处理的工作和成本。

不妨看看OpenAI，最初设定是开源非盈利，但变现困难无法覆盖成本。2019年，OpenAI不得不接受微软注资，算法不再对公众的开放。预计到2024年，OpenAI盈利将达10亿美元（https://news.crunchbase.com/ai-robotics/venture-funding-startups-openai/）。

解决方案

Web3引入了名为“dataDAO”的新机制，促进了AI模型所有者和数据贡献者之间的收入再分配，为众包数据贡献创建了激励层。由于篇幅限制，此处不会展开，想要了解可阅读下方两篇文章：

How DataDAO works/DataDAO原理，作者是Protocol Labs的HQ Han
How data contribution and monetization works in web3/web3数据贡献和变现如何运作，我在这篇深入讨论了dataDAO的机制、欠缺和机遇

总的来说，DePIN另辟蹊径，为推动Web3和AI创新提供了新的硬件能源。尽管科技巨头主导了AI行业，但新兴参与者可以利用区块链技术加入竞争：DePIN网络降低准入门槛的方式包括降低计算成本；区块链的可验证和分布式特性使真正的开放式AI成为可能；dataDAO等创新机制激励数据贡献；区块链的不可变性和防篡改特性提供了创造者身份证明，打消人们对AI负面社会影响的担忧。

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:IPFS