LLM是一种AI技术,可以处理非结构化数据,如Twitter情感分析,计算核心指标,查询数据,指标选择、排序和相关性分析,以及产生业务抽象的自然语言描述。它可以应用于不同的链上数据场景,但仍有一些挑战,如生成代码、数据标注、准确性和幻觉问题等。LLM可以加速区块链数据生产的各个流程,支持决策和战略规划,但开发者和研究者在应用LLM时需要保持谨慎,以找到更适合的应用场景并最大程度地发挥其优势。
原文作者:Footprint Analytics & Future3 Campus
原文来源:万向区块链
GPT的横空出世将全球的目光吸引至大语言模型,各行各业都尝试着利用这个“黑科技”提高工作效率,加速行业发展。Future3 Campus携手Footprint Analytics共同深入研究AI与Web3结合的无限可能,联合发布了《AI与Web3数据行业融合现状、竞争格局与未来机遇探析》研报。该研报分为上下两篇,本文为上篇,由Footprint Analytics研究员Lesley、Shelly共同编撰。由Future3 Campus研究员Sherry、Humphrey编撰的下篇将于明日发布。
1.1 AI 的发展历史
人工智能(AI)的历史可以追溯到上个世纪 50 年代。自 1956 年起,人们开始关注人工智能这一领域,逐渐发展出了早期的专家系统,帮助专业领域解决问题。此后,机器学习的兴起,拓展了 AI 的应用领域,AI 开始更广泛地应用在各行各业。到如今,深度学习和生成式人工智能爆发,带给了人们无限可能性,其中的每一步都充满了不断的挑战与创新,以追求更高的智能水平和更广泛的应用领域。
图 1:AI 发展历程
2022 年 11 月 30 日,ChatGPT 面世,首次展示了 AI 与人类低门槛、高效率交互的可能性。ChatGPT 引发了对人工智能的更广泛探讨,重新定义了与 AI 互动的方式,使其变得更加高效、直观和人性化,也推动了人们对更多生成式人工智能的关注,Anthropic(Amazon)、DeepMind(Google)、Llama 等模型也随后进入人们的视野。与此同时,各行各业的从业者也开始积极探索 AI 会如何推动他们所在领域的发展,或者寻求通过与 AI 技术的结合在行业中脱颖而出,进一步加速了 AI 在各个领域的渗透。
1.2 AI 与 Web3 的交融
Web3 的愿景从改革金融体系开始,旨在实现更多的用户权力,并有望引领现代经济和文化的转变。区块链技术为实现这一目标提供了坚实的技术基础,它不仅重新设计了价值传输和激励机制,还为资源分配和权力分散提供了支持。
图 2:Web3 发展历程
早在 2020 年,区块链领域的投资公司 Fourth Revolution Capital(4RC)就曾指出,区块链技术将和 AI 结合,通过对金融、医疗、电子商务、娱乐等全球行业的去中心化,以实现对现有行业的颠覆。
目前,AI 与 Web3 的结合,主要是两大方向:
市场上 AI 与 Web3 的结合有以下的一些探索方向:
图 3:AI 与 Web3 结合全景图
在本文中,我们将重点探索如何利用 AI 的技术,去提升 Web3 数据的生产效率以及使用体验。
2.1 Web2 & Web3 数据行业对比
作为 AI 最核心的组成部分“数据”,在 Web3 跟我们熟悉的 Web2 很着很多的区别。差异主要是在于 Web2 以及 Web3 本身的应用架构导致其产生的数据特征有所不同。
2.1.1 Web2 & Web3 应用架构对比
图 4:Web2 & Web3 应用架构
在 Web2 架构中,通常是由单一实体(通常是一家公司)来控制网页或者 APP,公司对于他们构建的内容有着绝对的控制权,他们可以决定谁可以访问其服务器上的内容和逻辑,以及用户拥有怎样的权益,还可以决定这些内容在网上存在的时长。不少案例表明,互联网公司有权改变其平台上的规则,甚至中止为用户提供服务,而用户对此无法保留所创造的价值。
而 Web3 架构则借助了通用状态层(Universal State Layer)的概念,将一部分或者全部的内容和逻辑放置在公共区块链上。这些内容和逻辑是公开记录在区块链上的,可供所有人访问,用户可以直接控制链上内容和逻辑。而在 Web2 中,用户需要帐户或 API 密钥才能与区块链上的内容进行交互。用户可以直接控制其对应的链上内容和逻辑。不同于 Web2,Web3 用户无需授权帐户或 API 密钥就能与区块链上的内容进行交互(特定管理操作除外)。
2.1.2 Web2 与 Web3 数据特征对比
图 5:Web2 与 Web3 数据特征对比
Web2 数据通常表现为封闭和高度受限的,具有复杂的权限控制,高度成熟、多种数据格式、严格遵循行业标准,以及复杂的业务逻辑抽象。这些数据规模庞大,但互操作性相对较低,通常存储在中央服务器上,且不注重隐私保护,大多数是非匿名的。
相比之下,Web3 数据更加开放,访问权限更广泛,尽管成熟度较低,以非结构化数据为主,标准化较为罕见,业务逻辑抽象相对简化。Web3 的数据规模相对 Web2 较小,但它具有较高的互操作性(比如 EVM 兼容),并可分散或集中存储数据,同时强调用户隐私,用户通常采用匿名方式进行链上交互。
2.2 Web3 数据行业现状与前景,以及遇到的挑战
在 Web2 时代,数据如石油的“储量”般珍贵,访问和获取大规模数据一直是极大的挑战。在 Web3 中,数据的开放性和共享性一下子让大家觉得“石油到处都是”,使得 AI 模型能够更轻松地获取更多的训练数据,这对于提高模型性能和智能水平至关重要。但对 Web3 这个“新石油” 的数据处理依然有很多问题待解决,主要有以下几个:
处理链上数据时,需要反复执行耗时而劳动密集的索引过程,需要开发者和数据分析师花费大量时间和资源来适应不同链、不同项目之间的数据差异。链上数据行业缺乏统一的生产和处理标准,除了记录到区块链账本上的,events,logs,and traces 等都基本上是项目自己定义和生产(或生成)的,这导致非专业交易者很难辨别并找到最准确和可信的数据,增加了他们在链上交易和投资决策中的困难。比如,去中心化交易所 Uniswap 和 Pancakeswap 就有可能在数据处理方法和数据口径上存在差异,过程中的检查和统一口径等工序进一步加大了数据处理的复杂性。
区块链是时刻变动的,数据更新以秒甚至毫秒级别计。数据的频繁产生和更新使其难以维持高质量的数据处理和及时的更新。因此,自动化的处理流程是十分重要的,这也是对于数据处理的成本和效率的一大挑战。Web3 数据行业仍处于初级阶段。随着新合约的层出不穷和迭代更新,数据缺乏标准、格式多样,进一步增加了数据处理的复杂性。
链上数据通常不包含足够的信息来清晰识别每个地址的身份,这使得数据在与链下的经济、社会或法律动向难以联动。但是链上数据的动向与现实世界紧密相关,了解链上活动与现实世界中特定个体或实体的关联性对于特定的场景比如数据分析来说十分重要。
随着大语言模型(LLM)技术引发的生产力变更讨论,能否利用 AI 来解决这些挑战也成为 Web3 领域的一个焦点关注之一。
3.1 传统 AI 与 LLM 的特征对比
在模型训练方面,传统 AI 模型通常规模较小,参数数量在数万到数百万之间,但为了确保输出结果的准确性,需要大量的人工标注数据。LLM 之所以如此强大,部分原因在于其使用了海量的语料拟合百亿、千亿级以上的参数,极大地提升了它对自然语言的理解能力,但这也意味着需要更多的数据来进行训练,训练成本相当高昂。
在能力范围和运行方式上,传统 AI 更适合特定领域的任务,能够提供相对精准和专业的答案。相比之下,LLM 更适合通用性任务,但容易产生幻觉问题,这意味着在一些情况下,它的回答可能不够精确或专业,甚至完全错误。因此,如果需要和客观,可信任,和可以追溯的结果,可能需要进行多次检查、多次训练或引入额外的纠错机制和框架。
图 6:传统 AI 与大模型语言模型 (LLM)的特征对比
3.1.1 传统 AI 在 Web3 数据领域的实践
传统 AI 已经在区块链数据行业展现了其重要性,为这一领域带来了更多创新和效率。例如,0xScope 团队采用 AI 技术,构建了基于图计算的群集分析算法,通过不同规则的权重分配来帮助准确识别用户之间的相关地址。这种深度学习算法的应用提高了地址群集的准确性,为数据分析提供了更精确的工具。Nansen 则将 AI 用于 NFT 价格预测,通过数据分析和自然语言处理技术,提供有关 NFT 市场趋势的见解。另一方面,Trusta Labs使用了基于资产图谱挖掘和用户行为序列分析的机器学习方法,以增强其女巫检测解决方案的可靠性和稳定性,有助于维护区块链网络生态的安全。另一方面,Trusta Labs 采用了图挖掘和用户行为分析的方法,以增强其女巫检测解决方案的可靠性和稳定性,有助于维护区块链网络的安全。Goplus 在其运营中利用传统人工智能来提高去中心化应用程序(dApps)的安全性和效率。他们收集和分析来自 dApp 的安全信息,提供快速风险警报,帮助降低这些平台的风险敞口。这包括通过评估开源状态和潜在恶意行为等因素来检测 dApp 主合同中的风险,以及收集详细的审计信息,包括审计公司凭证、审计时间和审计报告链接。Footprint Analytics 则使用 AI 生成生产结构化数据的代码,分析 NFT 交易 Wash trading 交易以及机器人账户筛选排查。
然而,传统 AI 拥有的信息有限,专注于使用预定的算法和规则执行预设任务,而 LLM 则通过大规模的自然语言数据学习,可以理解和生成自然语言,这使其更适合处理复杂且巨量的文本数据。
最近,随着 LLM 取得了显著进展,人们对 AI 与 Web3 数据的结合,也进行了一些新的思考与探索。
3.1.2 LLM 的优势
LLM 相对于传统人工智能具有以下优势:
LLM 在可扩展性方面表现出色,能够高效处理大量数据和用户互动。这使其非常适合处理需要大规模信息处理的任务,如文本分析或者大规模数据清洗。其高度的数据处理能力为区块链数据行业提供了强大的分析和应用潜力。
LLM 具备卓越的适应性,可以为特定任务进行微调或嵌入行业或私有数据库,使其能够迅速学习和适应不同领域的细微差别。这一特性使 LLM 成为了解决多领域、多用途问题的理想选择,为区块链应用的多样性提供了更广泛的支持。
LLM 的高效率为区块链数据行业带来了显著的便利。它能够自动化原本需要大量人工时间和资源的任务,从而提高生产力并降低成本。LLM 可以在几秒内生成大量文本、分析海量数据集,或执行多种重复性任务,从而减少了等待和处理时间,使区块链数据处理更加高效。
LLM Agent 具备独特的能力,即可以生成某些工作的具体计划,将复杂任务分解为可管理的小步骤。这一特性对于处理大规模的区块链数据和执行复杂的数据分析任务非常有益。通过将大型工作分解成小任务,LLM 可以更好地管理数据处理流程,并输出高质量的分析。
这一能力对于执行复杂任务的 AI 系统至关重要,例如机器人自动化、项目管理和自然语言理解与生成,使其能够将高级任务目标转化为详细的行动路线,提高任务执行的效率和准确性。
LLM 的可访问性使更多用户能够轻松与数据和系统进行互动,让这些互动更加用户友好。通过自然语言,LLM 使数据和系统更容易访问和交互,无需用户学习复杂的技术术语或特定命令,例如,SQL,R,Python 等来做数据获取和分析。这一特性拓宽了区块链应用的受众范围,让更多的人能够访问和使用 Web3 应用和服务,不论他们是否精通技术,从而促进了区块链数据行业的发展和普及。
3.2 LLM 与 Web3 数据的融合
图 7:区块链数据与 LLM 的融合
大型语言模型的培训需要依赖大规模数据,通过学习数据中的模式来建立模型。区块链数据中蕴含的交互和行为模式是 LLM 学习的燃料。数据量和质量也直接影响 LLM 模型的学习效果。
数据不仅仅是 LLM 的消耗品,LLM 还有助于生产数据,甚至可以提供反馈。例如,LLM 可以协助数据分析师在数据预处理方面做出贡献,如数据清洗和标注,或者生成结构化数据,清除数据中的噪声,凸显有效信息。
3.3 增强 LLM 的常用技术解决方案
ChatGPT 的出现,不仅向我们展示了 LLM 解决复杂问题的通用能力,同时也引发了全球范围的,对在通用能力上去叠加外部能力的探索。这里包括,通用能力的增强(包括上下文长度、复杂推理、数学、代码、多模态等)以及外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)。如何将 crypto 领域的专有知识以及个人的个性化私有数据嫁接到大模型的通用能力上,是大模型在 crypto 垂直领域商业化落地的核心技术问题。
目前,大多数应用都集中在检索增强生成(RAG)上,比如提示工程和嵌入技术,已经存在的代理工具也大多都聚焦于提高 RAG 工作的效率和准确性。市场上主要的基于 LLM 技术的应用栈的参考架构有以下几种:
图 8:Prompt Engineering
当前,大多数从业者在构建应用时采用基础解决方案,即 Prompt Engineering。这一方法通过设计特定的 Prompt 来改变模型的输入,以满足特定应用的需求,是最方便快捷的做法。然而,基础的 Prompt Engineering 存在一些限制,如数据库更新不及时、内容冗杂、以及对输入上下文长度(In-Context Length)的支持和多轮问答的限制。
因此,行业内也在研究更先进的改进方案,包括嵌入(Embedding)和微调(Fine-tuning)。
嵌入(Embedding)是一种广泛应用于人工智能领域的数据表示方法,能高效捕获对象的语义信息。通过将对象属性映射成向量形式,嵌入技术能够通过分析向量之间的相互关系,快速找到最有可能正确的答案。嵌入可以在 LLM 的基础上构建,以利用该模型在广泛语料上学到的丰富语言知识。通过嵌入技术将特定任务或领域的信息引入到预训练的大模型中,使得模型更专业化,更适应特定任务,同时保留了基础模型的通用性。
用通俗的话来讲,嵌入就类似于你给一个经过综合训练的大学生一本工具书,让他拿着拥有特定任务相关知识的工具书去完成任务,他可以随时查阅工具书,然后可以解决特定的问题。
图 9:Fine Tuning
微调(Fine-tuning)与嵌入不同,通过更新已经预训练的语言模型的参数,使其适应特定任务。这种方法允许模型在特定任务上表现出更好的性能,同时保持通用性。微调的核心思想是调整模型参数,捕捉与目标任务相关的特定模式和关系。但微调的模型通用能力上限仍然受限于基座模型本身。
用通俗的话来讲,微调就类似于给经过综合训练的大学生上专业知识课程,让他掌握除了综合能力以外的专业课知识,能自行解决专业板块的问题。
当前的 LLM 虽然强大,但不一定能够满足所有需求。重新训练 LLM 是一种高度定制化的解决方案,通过引入新数据集和调整模型权重,使其更适应特定任务、需求或领域。然而,这种方法需要大量计算资源和数据,并且管理和维护重新训练后的模型也是挑战之一。
图 10:Agent 模型
Agent 模型是一种构建智能代理的方法,它以 LLM 作为核心控制器。这个系统还包括几个关键组成部分,以提供更全面的智能。
人工智能代理模型具备强大的语言理解和生成能力,能够解决通用问题,进行任务分解以及自我反思。这使得它在各种应用中都有广泛的潜力。然而,代理模型也存在一些局限性,例如受到上下文长度的限制、长期规划和任务拆分容易出错、输出内容的可靠性不稳定等问题。这些局限性需要长期不断的研究和创新,以进一步拓展代理模型在不同领域的应用。
以上的各种技术并不是相互排斥的,它们可以在训练和增强同一个模型的过程中一起使用。开发者可以充分发挥现有大语言模型的潜力,尝试不同的方法,以满足日益复杂的应用需求。这种综合使用不仅有助于提高模型的性能,还有助于推动 Web3 技术的快速创新和进步。
然而,我们认为,虽然现有的 LLM 已经在 Web3 的快速发展中发挥了重要作用,但在充分尝试这些现有模型(如 OpenAI、Llama 2 以及其他开源 LLM)之前,我们可以从浅入深,从 prompt engineering 和嵌入等 RAG 策略入手,谨慎考虑微调和重新训练基础模型。
3.4 LLM 如何加速区块链数据生产的各个流程
3.4.1 区块链数据的一般处理流程
当今,区块链领域的建设者逐渐认识到数据产品的价值。这一价值覆盖了产品运营监控、预测模型、推荐系统以及数据驱动的应用程序等多个领域。尽管这一认知逐渐增强,但作为数据获取到数据应用中不可或缺的关键步骤,数据处理往往被忽视。
图 12:区块链数据处理流程
区块链上的每一笔交易或事件都会生成 events 或 logs,这些数据通常是非结构化的。这一步骤是获取数据的第一入口,但数据仍然需要被进一步处理以提取有用信息,得到结构化的原始数据。这包括整理数据、处理异常情况和转化为通用格式。
在得到结构化原始数据后,需要进一步进行业务抽象,将数据映射到业务实体和指标上,比如交易量、用户量等业务指标,将原始数据转化为对业务和决策有意义的数据。
有了抽象的业务数据后,可以在业务抽象的数据上进行进一步计算,就可以得出各种重要的衍生指标。例如交易总额的月增长率、用户留存率等核心指标。这些指标可以借助 SQL、Python 等工具实现,更加有可能帮助监控业务健康、了解用户行为和趋势,从而支持决策和战略规划。
3.4.2 区块链数据生成流程加入 LLM 后的优化
LLM 在区块链数据处理中可以解决多个问题,包括但不限于以下内容:
处理非结构化数据:
进行业务抽象:
自然语言解读数据:
3.5 目前用例
根据 LLM 自身的技术以及产品体验优势,它可以被应用到不同的链上数据场景,技术上从易到难可以将这些场景分成四类:
图 11:LLM 应用场景
3.6 LLM 的局限性
3.6.1 行业现状:成熟应用、正在攻克的问题以及尚未解决的挑战
在 Web3 数据领域,尽管已经取得了一些重要的进展,但仍然面临一些挑战。
相对成熟的应用:
有待解决与正在探索的问题:
3.6.2 为何只靠 LLM 不能完美解决区块链数据行业的问题
作为语言模型,LLM 更适用于处理对流畅度要求较高的场景,而在追求准确性方面,可能需要对模型进行更进一步的调整。在将 LLM 应用于区块链数据行业时,以下框架可提供一些参考。
图 13:区块链数据行业下 LLM 输出的流畅性、准确性和用例风险
在评估 LLM 在不同应用中的适用性时,关注流畅度和准确性是至关重要的。流畅度指的是模型的输出是否自然、通顺,准确性则表示模型的答案是否准确。这两个维度在不同应用场景中有不同的要求。
对于流畅度要求较高的任务,如自然语言生成、创意写作等,LLM 通常能够胜任,因为其在自然语言处理方面的强大性能使其能够生成流畅的文本。
区块链数据面临着数据解析、数据处理、数据应用等多方面的问题。LLM 拥有卓越的语言理解和推理能力,使其成为与区块链数据互动、整理和概括的理想工具。然而,LLM 并不能解决所有区块链数据领域的问题。
在数据处理方面,LLM 更适合快速迭代和探索性处理链上数据,不断尝试新的处理方法。然而,LLM 在生产环境中的详细核对等任务方面仍存在一些限制。典型的问题是 token 长度不够,无法应对长上下文的内容。耗时的 prompt,回答不稳定影响下游任务进而导致成功率不稳定的问题,以及执行大批量任务的效率不高。
其次,LLM 处理内容的过程中很可能出现幻觉问题。据估计,ChatGPT 的幻觉概率约为 15% 至 20%,而由于其处理过程的不透明性,很多错误难以察觉。因此,框架的建立和专家知识的结合变得至关重要。此外,LLM 结合链上数据还是有很多挑战:
LLM 可以直接处理非结构化数据,因此结构化数据将不再被需要?LLM 通常基于海量文本数据预训练而来,天然适合处理各类非结构化的文本数据。然而,各个行业已经拥有大量结构化数据,尤其 Web3 领域中解析后的数据。如何有效的利用这些数据,增强 LLM,是一个行业的热门研究课题。
对于 LLM,结构化数据仍然具有以下的优势:
目前市场上还有一些脑洞大开的观点,认为 LLM 在处理文本信息和非结构化信息方面的能力极强,只需将原始数据,包括非结构化数据,简单导入到 LLM,就能达到目的。这个想法类似于要求通用 LLM 解数学题,在没有专门构建数学能力模型的情况下,大多数 LLM 可能会在处理简单的小学加减题时出错。反而,建立类似数学能力模型,和图像生成模型的 Crypto LLM 垂直模型,才是解决 LLM 在 Crypto 领域更落地的实践。
4.2 LLM 可以从新闻、推特等文字信息推测内容,人们不再需要链上数据分析来得出结论?
LLM 虽然可以从新闻、社交媒体等文本中获得信息,但直接从链上数据中获得的洞察仍然是不可或缺的,主要原因有:
链上数据分析仍是不可或缺的。LLM 从文本中获取信息具有辅助作用,但不能取代直接分析链上数据。充分利用两者优势才能取得最佳效果。
4.3 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的基础上构建区块链数据解决方案非常容易?
LangChain 和 LlamaIndex 等工具为构建自定义的简单 LLM 应用提供了便利,使快速搭建成为可能。然而,将这些工具成功应用于实际生产环境中涉及到更多的挑战。构建一个高效运行、保持高质量的 LLM 应用是一项复杂的任务,需要深入理解区块链技术和 AI 工具的工作原理,并有效地将它们整合在一起。这对于区块链数据行业来说,是一项重要但具有挑战性的工作。
在这个过程中,必须认识到区块链数据的特性,它要求极高的精准性和可重复校验性。一旦数据通过 LLM 进行处理和分析,用户对其准确性和可信度有很高的期望。这与 LLM 的模糊容错性之间存在着潜在的矛盾。因此,在构建区块链数据解决方案时,必须仔细权衡这两方面的需求,以满足用户的期望。
当前市场上,虽然已经有了一些基础工具,但这个领域仍在快速演进和不断迭代。类比于 Web2 世界的发展历程,从最初的 PHP 编程语言到更成熟、可扩展的方案如 Java、Ruby、Python,以及 JavaScript 和 Node.js 等,再到 Go 和 Rust 等新兴技术,都经历了不断的演变。AI 工具也在不断变化,新兴的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未来可能性的一部分。这表明,区块链数据行业和 AI 技术都还有许多发展空间,需要不断努力和创新。
当前在应用 LLM 时,有两个陷阱需要特别注意:
尽管 LLM 在许多领域都具备巨大潜力,但开发者和研究者在应用 LLM 时需要保持谨慎,采取开放的探索态度,以找到更适合的应用场景并最大程度地发挥其优势。