全视角解读Web3 数据: LSD 之后的下一个十亿美元行业

SevenX Ventures
媒体专栏
热度: 20825

Web3并不是Web2的复制品,也不是Web2的完整演变。Web3有非常原始的使命和场景,从而催生了与以前完全不同的业务场景。

原文标题:Interpreting Web3 Data Economy in an All-Perspective View: The Next Billion-Dollar Sector afterLSD

原文作者:SevenX Ventures

原文来源:Mirror

编译:Lynn,MarsBit

Chat GPT 和 GPT-4 的流行让我们看到了人工智能的力量。人工智能的背后,除了算法,更重要的是海量数据。围绕数据,我们构建了一个大规模的复杂系统,其价值主要来自于商业智能(Business Intelligence,BI)和人工智能(Artificial Intelligence,AI)。由于互联网时代数据量的快速增长,数据基础设施工作和最佳实践也在快速发展。近两年来,数据基础设施技术栈的核心体系已经非常稳定,支撑工具和应用也在快速增长。

Web2数据基础架构

云数据仓库(如Snowflake等)增长迅速,主要关注SQL用户和商业智能用户场景。其他技术的采用也在加速,数据湖(例如 Databricks)经历了前所未有的客户增长,并且数据技术堆栈中的异构性将共存。

其他核心数据系统,例如数据采集和转换,已被证明同样耐用。这在现代数据智能领域尤其明显,Fivetran 和 dbt(或类似技术)的组合几乎随处可见。Databricks/Spark、Confluence/Kafka 和 Astronomer/Airflow 的组合也正在成为事实上的标准。

存储来源:a16z

  • 数据源端生成相关业务和运营数据;
  • 数据提取和转换负责从业务系统中提取数据(E),传输到存储,对齐数据源和目的地之间的格式(L),并根据需要将分析后的数据发送回业务系统;
  • 数据存储以可查询和处​​理的格式存储数据,需要针对低成本、高可扩展性和分析工作进行优化;
  • 查询和处理将高级编程语言(通常是 SQL、Python 或 Java/Scala)转换为低端数据处理任务。使用分布式计算基于存储的数据执行查询和数据模型,包括历史分析(描述过去发生的事件)和预测分析(描述未来预期事件);
  • 转换将数据转换为可分析使用的结构,管理流程和资源;
  • 分析和输出是分析师和数据科学家的界面,可提供可追踪的洞察力和协作,向内部和外部用户呈现数据分析结果,并将数据模型嵌入到面向用户的应用程序中。

随着数据生态系统的快速发展,“数据平台”的概念应运而生。从行业角度来看,平台的定义特征是有影响力的平台提供商和许多第三方开发商在技术和经济上的相互依赖。从平台角度来看,数据技术栈分为“前端”和“后端”。

“后端”大致包括数据提取、存储、处理和转换,并且已经开始围绕几家云服务提供商进行整合。因此,客户数据被收集在标准系统中,并且供应商正在大力投资以使其他开发人员可以轻松访问这些数据。这也是 Databricks 等系统的基本设计原则,并通过 SQL 标准等系统和 Snowflake 等自定义计算 API 等系统来实现。

“前端”工程师利用这个单一集成点来构建各种新应用程序。他们依赖于已清理并集成到数据仓库/湖仓库中的数据,而不用担心它们是如何生成的。单个客户可以在一个核心数据系统之上构建和购买许多应用程序。 我们甚至开始看到传统的企业系统(例如财务或产品分析)正在使用仓库本机架构进行重构。

随着数据技术栈逐渐成熟,数据平台上的数据应用也随之激增。由于标准化,采用新的数据平台变得前所未有的重要,相应地维护平台也变得极其重要。从规模上看,平台可能非常有价值。核心数据系统供应商之间对于当前预算和长期平台地位的竞争非常激烈。如果您认为数据摄取和转换模块是新兴数据平台的核心部分,那么数据摄取和转换公司的惊人估值就更容易理解。

然而,这些技术堆栈是由大公司主导的数据利用方法塑造的。随着社会对数据认识的加深,人们认为数据和土地、劳动力、资本、技术一样,都是可市场化的生产要素。作为五要素之一,其背后体现的就是数据的资产价值。

当前的技术堆栈不足以实现数据元素市场的分配。新的数据基础设施正在Web3中发展和演变,它与区块链技术紧密结合。这些基础设施将嵌入现代数据基础设施架构中,实现数据所有权定义、流转交易、收益分配和要素治理。从政府监管的角度来看,这四个领域至关重要,需要特别关注。

Web3混合数据基础设施架构

a16z统一数据基础架构(2.0)的启发,并结合我们对Web3基础架构的理解,我们提出了以下Web3混合数据基础架构。

存储Orange是Web3特有的技术栈单元。由于去中心化仍处于发展的早期阶段,Web3 领域的大多数应用程序仍在使用这种混合数据基础设施架构。绝大多数应用程序都不是真正的“上层建筑”。超架构是不可阻挡的、免费的、有价值的、可扩展的、免许可的、正外部性的、值得信赖的中立性。它作为数字世界的公共产品、“元宇宙”世界的公共基础设施而存在。这就需要一个完全去中心化的底层架构来支撑。

传统的数据基础架构是随着企业业务的发展而演变的。a16z将其概括为两个系统(分析和业务系统)和三个场景(现代商业智能、多模型数据处理、人工智能和机器学习)。这是从业务角度做的总结——业务增长的数据。

存储来源:a16z

然而,不只是企业,社会和个人都应该从数据元素带来的生产力提升中受益。世界各国纷纷出台政策法规,希望从监管层面规范数据的使用,促进数据的流通。其中包括日本常见的各种数据库,国内最近兴起的数据交易所,以及欧美已广泛使用的交易平台,如BDEX(美国)、Streamr(瑞士)、DAWEX(法国) )和卡鲁索等。

随着数据开始被命名、流动交易、去中心化和治理,它们的系统和场景超越了赋予公司自身决策和发展业务的能力。这些系统和场景要么需要利用区块链技术,要么强烈依赖政策监管。web3是数据要素市场的天然土壤,从技术上消除了作弊的可能性,并且可以大大减轻监管压力,让数据作为真正的生产要素存在并以市场化方式配置。

存储在Web3背景下,数据利用的新范式包括托管移动数据元素的市场系统和管理公共数据元素的公共系统。它们涵盖了三个新的数据业务场景:房地产数据开发集成、可组合的初始数据层和公共数据挖掘。

其中一些场景与传统数据基础设施紧密结合,属于Web3混合数据基础设施架构。相比之下,其他的则脱离了传统架构,完全受到 Web3 原生新技术的支持。

Web3 和数据经济

数据经济市场是配置数据元素的关键,包括开发和集成产品数据以及具有可组合性的初始数据层市场。在高效合规的数据经济市场中,以下几点很重要:

  1. 数据所有权是维权和合规使用的关键,应结构化分配处置,而数据使用则需要授权机制确认。每个参与者都应享有相关的权利和利益。
  2. 流通交易必须场内场外结合、合规高效。应遵循四个原则:数据来源可确、使用范围可界定、流转过程可追溯、安全风险可防范。
  3. 收入分配制度必须高效、公平。按照“谁投入、谁贡献、谁受益”的原则,政府可以引导和规范数据要素的分布。
  4. 要素治理安全、可控、灵活、包容。这就需要创新政府数据治理机制,建立数据要素市场信用体系,鼓励企业围绕数据源、数据所有权、数据质量、数据使用等积极参与数据要素市场建设,对数据供应商和第三方专业服务机构实行数据流转交易声明和承诺制度。

上述原则是监管机构考虑数据经济的基本原则。这些原则可用于考虑三种场景:属性数据开发和集成、可组合的初始数据层以及公共数据挖掘。我们需要什么样的基础设施来支持这一点?这些基础设施在什么阶段能够捕捉到什么样的价值?

场景一:数据所有权开发与整合

存储在产权数据开发过程中,需要建立分类、分级的权利确认和授权机制,确定公共数据、企业数据和个人数据的所有权、使用权和管理权。根据数据来源和生成特征,通过“数据适配”来界定数据的产权。其中,典型项目包括Navigate、Streamr Network、KYVE等。这些项目通过技术手段实现数据质量标准化、数据采集、接口标准化,以某种形式确认链下数据的权利,并对数据进行分类和整理。通过智能合约或内部逻辑系统进行分层授权。

该场景适用的数据类型为非公开数据,即企业数据和个人数据。以市场化方式激活数据要素的价值,实现“共用共享”。

  • 企业数据包括各类市场主体在生产经营活动中收集、处理的不涉及个人信息和公共利益的数据。市场主体依法享有持有、使用和获取利益的权益,并有权因其投入的劳动和其他要素贡献而获得合理回报。
  • 个人数据要求数据处理者按照个人授权和法律的范围收集、持有、托管和使用数据。采用创新技术手段,推动个人信息匿名化,保障个人信息数据使用过程中的信息安全和个人隐私。探索受托人代表个人利益,监督市场主体收集、处理和使用个人信息数据的机制。对于涉及国家安全的特殊个人信息数据,可以依照法律法规的规定授权相关单位使用。

场景 2:可组合的初始数据层

可组合的初始数据层是数据经济市场的重要组成部分。与一般产权数据不同,这部分数据最明显的特点是需要通过“数据模式管理”来定义标准数据格式。与“数据适配”的质量、采集、接口标准化不同,这里强调的是数据模型的标准化,包括标准数据格式和标准数据模型。陶瓷和透镜是该领域的先驱。它们分别保证了链下(去中心化存储)和链上数据的标准模式,从而使数据可组合。

构建在这些数据模式管理工具之上的是可组合的初始数据层,通常称为“数据层”,例如 Cyber​​connect、KNN3 等。

可组合的初始数据层在Web2技术栈中涉及较少,但基于陶瓷的热数据读取工具打破了这一点,这将是一个关键的突破。很多类似的数据不需要存储在区块链上,而且存储在区块链上也很困难。尽管如此,它们仍然需要存储在去中心化的网络上,例如用户帖子、点赞和评论等高频低价值密度的数据,而 Ceramic 为此类数据提供了存储范例。

可组合的初始数据是新时代创新的关键场景,也是结束数据霸权和垄断的重要标志。它可以解决初创企业在数据方面的冷启动问题,将成熟的数据集和新的数据集结合起来,使初创企业能够更快地建立数据竞争优势。同时,它让初创企业专注于增量数据价值和新鲜度,为其创新理念赢得持续的竞争力。这样,大数据就不会成为大公司的护城河。

场景3:公共数据挖掘

存储常见数据挖掘并不是一个新用例,但在 Web3 技术堆栈中获得了前所未有的重视。

传统公共数据包括党政机关、企事业单位依法履行职责或者提供公共服务产生的公共数据。监管机构鼓励在保护个人隐私、保障公共安全的前提下,按照“原始数据不异域、数据可用但不可见”的要求,以模型、验证等产品和服务的形式向社会提供此类数据。他们使用传统的技术栈(蓝色和一些橙色,橙色代表多种类型技术栈的交集,下同)。

在Web3中,区块链上的交易数据和活动数据是另一类公共数据,其特点是“可用、可见”,因此缺乏数据隐私、数据安全、数据使用确认授权能力,这是真正的“公共物品”(公共物品)。他们使用以区块链和智能合约为核心的技术堆栈(黄色和部分橙色)。

去中心化存储上的数据主要是除交易之外的Web3应用数据。目前主要是文件和对象存储,相应的技术栈还不成熟(绿色和一些橙色)。此类公共数据的生产和挖掘利用了存储的常见问题,包括冷热存储、索引、状态同步、权限管理、计算等。

许多数据应用在这种场景下应运而生。它们不是数据基础设施,而是更多的数据工具,包括 Nansen、Dune、NFT Scan、0x Scope 等。

案例:数据交换

数据交换是数据作为商品进行交易的平台。可以根据交易对象、定价机制、质量保证等进行分类和比较。Data Stream X、Dawex、Ocean Protocol 是典型的市场数据交易所。

Ocean Protocol(市值2亿)是一个开源协议,使企业和个人能够交换和清算数据和基于数据的服务。该协议基于以太坊区块链,并使用“数据代币”来控制对数据集的访问。数据代币是一种特殊的 ERC20 代币,代表对数据集或数据服务的所有权或访问权限。用户可以购买或赚取数据代币来访问他们需要的信息。

Ocean Protocol的技术架构由以下主要组成部分组成:

  • 提供商:提供数据或数据服务的提供商可以通过海洋协议发行和销售自己的数据通证来获得收入。
  • 消费者:购买和使用数据或数据服务的需求者可以通过海洋协议购买或获得访问所需的数据通行证。
  • 市场:Ocean Protocol 或第三方提供的开放、透明、公平的数据交易市场,连接全球的提供商和消费者,并提供多种类型和领域的数据通行证。市场可以帮助组织发现新的商机、增加收入来源、优化运营效率并创造价值。
  • 网络:是指Ocean Protocol提供的去中心化网络层,支持不同类型和规模的数据交换,保证数据交易过程的安全、信任和透明。网络层是一组智能合约,用于注册数据、记录所有权信息、促进安全数据交换等。
  • 策展人(Curator):指生态系统中负责筛选、管理和审查数据集的角色。他们负责审查有关数据集的来源、内容、格式和许可的信息,以确保数据集符合标准并可以被其他用户信任和使用。
  • 验证者:生态系统中的角色,负责验证、审查数据交易和数据服务,审查和验证数据服务提供者和消费者之间的交易,以确保数据服务的质量、可用性和准确性。

存储来源:Ocean Protocol

数据提供商创建的“数据服务”包括数据、算法、计算、存储、分析和管理。这些组件与服务的执行协议(服务级别协议)、安全计算、访问控制和权限相关联。本质上,这通过智能合约控制对“云服务套件”的访问。

存储来源:Ocean Protocol

其优势在于,

  • 开源、灵活、可扩展的协议帮助组织和个人创建独特的数据生态系统。
  • 基于区块链技术的去中心化网络层可以保证数据交易过程的安全、可信、透明,同时保护提供者和消费者的隐私和权利。
  • 一个开放、透明、公平的数据市场,能够连接全球范围内的提供者和消费者,并提供各类型、各领域的数据通证。

Ocean Protocol是混合架构的典型代表。其数据可以存储在不同的地方,包括传统的云存储服务、去中心化的存储网络,或者数据提供商自己的服务器。该协议使用数据代币(datatokens)和非同质代币(data NFT)来识别和管理数据所有权和访问权限。此外,该协议还提供了对数据进行计算(compute-to-data)的功能,使得数据消费者能够在不暴露原始数据的情况下分析和处理数据。

存储来源:Ocean Protocol

尽管Ocean Protocol是现阶段市场上最完整的数据交易平台之一,但它仍然面临着许多挑战:

  • 建立有效的信任机制,增加数据提供者和需求者之间的信任,降低交易风险。例如,建立数据元市场信用体系,通过区块链进行认证和验证,识别数据交易中的失信行为、守信激励、失信惩罚、信用修复、异议处理等。
  • 建立合理的定价机制,体现数据产品的真实价值,激励数据提供者提供优质数据,吸引更多需求者。
  • 建立统一的标准规范,促进不同格式、类型、来源和用途的数据之间的互操作和兼容。

案例:数据模型市场

Ceramic 在他们的数据宇宙中提到了他们想要创建的开放数据模型市场,因为数据需要互操作性,并且它可以极大地提高生产力。这样的数据模型市场是通过对数据模型的紧急共识来实现的,类似于以太坊中的ERC合约标准,开发者可以从中选择一个功能模板来拥有符合该数据模型中所有数据的应用程序。在这个阶段,这样的市场还不是交易市场。

关于数据模型,一个简单的例子是,在去中心化的社交网络中,数据模型可以简化为4个参数,分别是:

  1. 发帖列表:存储用户帖子的索引
  2. 帖子:存储个人帖子
  3. 个人资料:存储用户的个人资料
  4. 关注列表:存储用户的关注列表

那么如何在 Ceramic 上创建、共享和重用数据模型以实现跨应用程序数据互操作呢?

Ceramic 提供了一个数据模型注册表(Data ModelsRegistry),这是一个开源的、社区构建的、可重用的 Ceramic 存储库应用程序数据模型。在这里,开发人员可以公开注册、发现和重用现有数据模型,这是基于共享数据模型构建的客户运营应用程序的基础。目前基于Github存储,未来将在Ceramic上进行去中心化。

所有添加到注册中心的数据模型都会自动发布在@datamodels的npm包下。任何开发人员都可以使用@datamodels/model - name 安装一个或多个数据模型。这些模型可用于使用任何 IDX 客户端(包括 DID 数据存储或 Self.ID)在运行时存储或检索数据。

此外,Ceramic还搭建了基于GitHub的数据模型论坛。数据模型注册表中的每个模型在此论坛上都有自己的讨论线程。社区可以评论和讨论。同时,它也是开发者发布关于数据模型的想法的地方,以便在将其添加到注册表之前获得社区的意见。目前,一切还处于早期阶段。注册表中的数据模型并不多。注册表中包含的数据模型应该由社区评估,称为CIP标准,就像以太坊的智能合约标准一样,提供数据可组合性。

案例:去中心化数据仓库

Space and Time是第一个连接链上和链下数据以支持新一代智能合约用例的去中心化数据仓库。Space and Time(SxT)拥有业界最成熟的区块链索引服务。SxT 数据仓库还采用了名为 Proof of SQL™ 的新加密技术来生成可验证、防篡改的结果,允许开发人员在简单的 SQL 中加入不受信任的链上和链下数据格式化结果并将其直接加载到智能合约中,以完全防篡改和区块链锚定的方式支持亚秒级查询和企业级分析。

存储来源:Space and Time

Space and Time 是一个两层网络,具有验证器层和数据仓库。SxT 平台的成功取决于验证器和数据仓库的无缝交互,以方便对链上和链下数据进行简单、安全的查询。

数据仓库由数据库网络和由Space and Time验证器控制并路由到它们的计算集群组成。Space and Time采用灵活的存储解决方案:HTAP(混合事务/分析处理)。

验证器监视、命令和验证这些集群提供的服务,然后编排最终用户和数据仓库集群之间的数据流和查询。验证器为数据进入系统(例如区块链索引)和数据退出系统(例如智能合约)提供了一种手段。

  • 路由 - 支持与分散数据仓库网络的事务和查询交互
  • 流媒体 - 充当大容量客户流媒体(事件驱动)工作负载的接收器
  • 共识 - 为数据进出平台提供高性能的拜占庭容错
  • 查询证明-向平台提供SQL证明
  • 表锚 - 通过将表锚定在链上,向平台提供存储证明
  • 预言机 - 支持Web3交互,包括智能合约事件监听和跨链消息传递/中继
  • 安全 - 防止未经身份验证和未经授权的平台访问

存储来源:Space and Time

Space and Time作为一个平台,是世界上第一个去中心化的数据结构,开辟了一个强大但服务不足的市场:数据共享。在Space and Time平台内,企业可以自由共享数据,并使用智能合约来交易共享数据。此外,数据集可以通过 SQL 证明进行货币化和聚合,而无需让消费者访问原始数据。数据消费者无需查看数据本身即可相信聚合是准确的,因此数据提供者不再必须是数据消费者。正是由于这个原因,SQL 证明和数据结构模式的结合有可能使数据操作民主化,因为任何人都可以为数据集的摄取、转换和服务做出贡献。

Web3 数据治理和发现

目前,Web3数据基础设施缺乏实用、高效的数据治理架构。然而,一个实用、高效的数据治理基础设施对于配置各参与者相关权益的数据要素至关重要。

  • 对于数据来源来说,需要获得知情同意,并有权自由获取、复制和传输数据本身。
  • 对于数据处理者来说,需要拥有自我控制权、使用数据权和获取利益权。
  • 对于数据衍生品,需要运营权。

目前Web3数据治理能力单一,只能通过控制私钥来控制资产和数据(包括Ceramic),几乎不存在分层分类配置能力。最近,Tableland、FEVM、Greenfield等创新机制可以在一定程度上实现去信任的数据治理。Collibra等传统数据治理工具只能在企业内部使用,并且仅具有平台级信任。同时,非去中心化的技术也使得无法防止个人作恶和单点故障。通过Tableland等数据治理工具,可以保证数据流通过程所需的安全技术、标准和解决方案。

案例:Tableland

Tableland Network 是一种用于结构化关系数据的去中心化 web3 协议,从以太坊 (EVM) 和兼容 EVM 的 L2 开始。借助 Tableland,现在可以利用区块链层进行访问控制来实现传统的 Web2 关系数据库功能。然而,Tableland 并不是一个新的数据库——只是 web3 原生关系表。Tableland 提供了一种新方法,使 dapp 能够在 web3 原生网络中存储关系数据,而无需进行这些权衡。

解决方案

存储来源:Tableland

借助 Tableland,元数据可以进行变异(如果需要,可以使用访问控制)、查询(使用熟悉的 SQL)和可组合(与 Tableland 上的其他表一起)——所有这些都以完全去中心化的方式进行。

存储来源:Tableland

Tableland 将传统的关系数据库分解为两个主要组件:具有访问控制逻辑(ACL)的链上注册表和链下(去中心化)表。Tableland 中的每个表最初都是在基础 EVM 兼容层上铸造为 ERC721 代币。因此,链上表所有者可以在表上设置 ACL 权限,而在链下,Tableland 网络则管理表本身的创建和后续更改。链上和链下之间的链接是在合约层面处理的。它指向 Tableland 网络(使用基本 URI + 令牌 URI,与许多使用 IPFS 网关或托管服务器存储元数据的现有 ERC721 令牌非常相似)。

存储来源:Tableland

只有具有适当链上权限的人才能写入特定的表。但读表不一定是链上操作,可以使用Tableland网关;因此,读取查询是免费的,可以来自简单的前端请求或其他非 EVM 区块链。要使用Tableland,首先必须创建一个表(即作为ERC721在链上投射)。部署地址最初设置为表所有者,该所有者可以为尝试与表交互以进行更改的任何其他用户设置权限。例如,所有者可以设置规则,规定谁可以更新/插入/删除值,他们可以更改哪些数据,甚至决定是否要转移表另一端的所有权。此外,

考虑下图,它总结了新用户与已由某些 dapp 部署到 Tableland 的表的交互:

存储来源:Tableland

整体信息流程如下:

  1. 新用户与 dapp 的 UI 进行交互,并尝试更新 Tableland 表中存储的一些信息。
  2. dapp 调用 Tableland 注册智能合约来运行此 SQL 语句,该合约会检查 dapp 的智能合约,其中包含定义此新用户权限的自定义 ACL。

有几点需要注意:

  1. dapp 的单独智能合约中的自定义 ACL 是完全可选但高级的用例;开发者不需要实现自定义ACL,可以使用TablelandRegistry智能合约的默认策略(只有所有者拥有完全权限)。
  2. 您还可以使用 Gateway 编写查询,而不是直接调用 Tableland 智能合约。dapp 始终可以选择直接调用 Tableland 智能合约,但任何查询都可以通过网关发送,网关将在补贴的基础上将查询转发给智能合约。
  3. Tableland 智能合约获取用户的 SQL 语句和权限,将它们合并到发出的事件中,这些事件描述要采取的基于 SQL 的操作。
  4. Tableland Validator 节点侦听这些事件,然后执行以下操作之一:
  5. 如果用户具有写入表的正确权限,验证器将相应地运行 SQL 命令(向表中插入新行或更新现有值)并将确认数据广播到 Tableland 网络。
  6. 如果用户没有正确的权限,验证器将不会对表执行任何操作。
  7. 如果请求是简单的读查询,则返回相应的数据;
  8. Tableland 是一个完全开放的关系数据网络,任何人都可以对任何表执行只读查询。
  9. Dapps 可以通过网关反映 Tableland 网络上的任何更新。

(使用场景)要避免什么

  • 个人身份数据
  • Tableland 是一个开放网络;任何人都可以从任何表中读取数据。因此,个人数据不应存储在 Tableland 中。
  • 高频、亚秒级写入
  • 例如高频交易机器人。
  • 存储应用程序中的每个用户交互
  • 将这些数据保存在 Web3 表中,例如击键或点击,可能没有意义。写入的频率可能会导致高昂的成本。
  • 非常大的数据集
  • 应避免这些数据集,最好通过文件存储处理,使用 IPFS、Filecoin 或 Arweave 等解决方案。然而,指向这些位置和相关元数据的指针实际上是 Tableland 表的一个很好的用例。

关于估值捕获的思考

不同单元在整体数据基础设施架构中具有不可替代的作用,其价值捕获的价值主要体现在市值/估值和预估收益上,可以从以下结论得到:

  1. 数据源是整个架构中价值捕获最大的模块
  2. 数据复制、转换、流媒体和数据仓库是第二重要的
  3. 分析层可能有良好的现金流,但估值会有上限

结构图左侧的公司/项目往往会获得更大的价值。

行业集中度

根据上图企业的不完全统计分析,行业集中度判断如下:

  1. 行业集中度最高的是数据存储和数据查询处理两个模块
  2. 行业集中度中等是数据提取和转换
  3. 行业集中度较低的两个模块是数据源、分析、输出

数据来源、分析和产出的行业集中度较低。初步判断,不同的业务场景导致各个业务场景中出现了垂直场景领导者,比如数据库中的Oracle、第三方服务中的Stripe、企业服务中的Salesforce、仪表盘分析中的Tableau、嵌入式分析中的Sisense、 ETC。

数据提取与转换模块行业集中度中等的原因初步判断是由于其业务属性的技术导向性。中间件的模块化形式也使得切换成本相对较低。

初步判断行业集中度最高的数据存储和查询处理模块,由于业务场景单一、技术含量高、启动成本高、后续切换成本高,给公司/项目带来了较强的竞争力。先发优势和网络效应。

对数据协议商业模式和退出路径的思考

从成立及上市时间来看

  • 2010年之前成立的公司/项目大多是数据源公司/项目。移动互联网还没有出现,数据也不是很大。还有一些数据存储和分析输出的项目,主要是仪表板。
  • 2010年到2014年,移动互联网兴起前夕,Snowflake、Databricks等数据存储和查询项目诞生,数据提取和转换项目也开始出现,逐渐形成了一套成熟的大数据管理技术解决方案改善了。有大量的分析输出项目,主要是仪表板。
  • 2015年到2020年,查询和处理项目如雨后春笋般涌现,许多数据提取和转换项目也不断涌现,让人们更好地发挥大数据的力量。
  • 从 2020 年起,出现了更新的实时分析数据库和数据湖解决方案,例如 Clickhouse 和 Tabular。

基础设施的完善是所谓“大规模采用”的前提。大规模应用期间,仍然存在新的机遇。尽管如此,这些机会几乎只是“中间件”,底层的数据仓库、数据源等解决方案几乎是赢家通吃的局面,除非在技术上有实质性突破。不然的话,就很难成长。

而分析输出的项目,无论处于什么时期,都是创业项目的机会。但它也在不断迭代创新,基于新场景做新事情。2010年之前出现的Tableau占据了大部分桌面仪表板分析工具。后来出现了新的场景,比如更专业化的DS/ML工具、更全面的数据工作站、更SaaS化的嵌入式分析。

从这个角度来看Web3目前的数据协议:

  • 数据源和存储项目尚未确定,但领导者正在涌现。链上状态存储以以太坊(2200亿市值)为首,去中心化存储以Filecoin(23亿市值)和Arweave(2.8亿市值)为首。可能会有格林菲尔德突然出现。——捕捉最高价值
  • 数据提取和转换项目仍有创新空间。数据预言机Chainlink(市值38亿)只是一个开始。事件流和流处理基础设施 Ceramic 等更多项目将会出现,但空间不大。- 中等价值获取
  • 对于查询和处理项目,Graph(市值12亿)已经能够满足大部分需求,项目类型和数量还没有达到爆发期。- 中等价值获取
  • 数据分析项目,主要是Nansen和Dune(价值10亿),需要新场景带来新机会。NFT Scan和NFT Go类似于新场景,但只是内容更新,而不是分析逻辑/范式层面的新要求。— 价值捕获适度,现金流强劲。

但Web3并不是Web2的复制品,也不是Web2的完整演变。Web3有非常原始的使命和场景,从而催生了与以前完全不同的业务场景(前三个场景都是现在可以做的抽象)。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
免责声明:本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况,及遵守所在国家和地区的相关法律法规。