尽管开发高质量的加密 LLM 应用可能需要额外的投入,但 LLM 天然适合加密领域。
原文作者:Yiping
原文来源:IOSG Ventures
写在前面
Source: IOSG Ventures
本篇研究报告分为上下两部发表,本文为上部,我们将重点关注 LLM 在加密领域的应用,并探讨应用落地的策略。
LLM 是什么?
LLM(大语言模型)是一种计算机化语言模型,由一个具有大量参数(通常为数十亿)的人工神经网络组成。这些模型在大量未标记的文本上进行训练。
2018年前后,LLM 的诞生彻底改变了自然语言处理的研究。与以往需要为特定任务训练特定监督模型的方法不同,LLM 作为一个通用模型,在各种任务上都表现出色。其能力和应用包括:
LLM 的优势包括其对大量数据的理解能力、执行多种语言相关任务的能力,以及根据用户需求定制化结果的潜力。
常见的大型语言模型应用
由于其出众得自然语言理解能力,LLM 具有相当大的潜力,而开发者主要关注以下两个方面:
正是这两个方面让与 XX 聊天的 LLM 应用如雨后春笋般爆发。例如,与 PDF 聊天、与文档聊天以及与学术论文聊天。
随后,人们尝试将 LLM 与各种数据源融合。开发者已成功将平台,如 Github、Notion 和一些笔记软件与 LLM 整合。
为了克服 LLM 固有的限制,不同的工具被纳入了系统中。第一个这样的工具是搜索引擎,为 LLM 提供了访问最新知识的能力。进一步的进展将把 WolframAlpha、Google Suites 和 Etherscan 等工具与大型语言模型整合。
LLM Apps 的架构
下图概述了LLM应用在回应用户查询时的流程:首先,相关的数据源被转换为嵌入向量并存储在向量数据库中。LLM 适配器使用用户查询和相似性搜索从向量数据库中找到相关的上下文。相关的上下文被放入 Prompt 中并发送给 LLM 。LLM 将执行这些 Prompt,并使用工具生成回答。有时,LLM 会在特定数据集上进行调优,以提高准确性并降低成本。
LLM 应用的工作流程可以大致分为三个主要阶段:
将 LLM 引入加密领域
尽管加密领域(Web3)与Web2有一些类似的应用,但在加密领域中开发出优秀的 LLM 应用需要尤其谨慎。
加密生态系统独特,具有其特有的文化、数据和融合性。在这些加密限定的数据集上微调的 LLM 可以以相对较低的成本提供优越的结果。虽然数据丰富可得,但在类似 HuggingFace 等平台上明显缺乏开放数据集的。目前,只有一个与智能合约相关的数据集,其中包含 11.3 万个智能合约。
开发者还面临将不同工具整合到 LLM 中的挑战。这些工具与 Web2 中使用的工具不同,它们赋予 LLM 访问与交易相关的数据、与去中心化应用(Dapp)互动以及执行交易的能力。到目前为止,我们还没有在 Langchain 中找到任何 Dapp 的集成。
尽管开发高质量的加密 LLM 应用可能需要额外的投入,但 LLM 天然适合加密领域。这个领域提供了丰富的、干净的、结构化的数据。再加上 Solidity 代码通常简洁明了,这使得 LLM 更容易生成功能性的代码。
在《下部》中,我们将讨论 LLM 可以帮助区块链领域的8个潜在方向,如: