让数据流动:加密项目如何缓解 AI 数据训练的瓶颈?

Shlok Khemani热度: 14838

OpenAI发布了名为ChatGPT的聊天机器人应用程序,AI已从幕后走向台前。AI公司面临着数据短缺的问题,因为大部分公开互联网数据已被抓取和用于训练现有模型。一些初创公司提供加密技术来解决这些问题。Grass聚合了数百万个住宅互联网连接,以大规模抓取数据供AI公司使用。通过加密技术,Grass提供更公平的解决方案,让用户分享带宽并获得奖励。AI模型背后需要数百万小时的人类劳动,传统机器学习用例也需要大量的人类参与进行数据标注。未来,上下文级别查询将成为主流,模型的上下文窗口也会随着时间扩大。通过AI,艺术家可以创作无限数量的作品,区块链和生成式AI技术的结合,使数字内容的分发和访问更加公平和便捷。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

原文作者:@shlokkheman

原文来源:Substack

原文标题:The Data Must Flow

编译:TechFlow,深潮

数据

看看你是否能发现图像中所有精心策划的参考资料

过去两年里,自从一家相对不知名的初创公司 OpenAI 发布了名为 ChatGPT 的聊天机器人应用程序,AI 从幕后走向了台前。我们正处在机器智能全面渗透生活的关键时刻。随着对控制这种智能的竞争愈发激烈,驱动其发展的数据需求也在不断增加。这就是这篇文章的主题。

我们讨论了AI公司所需的数据的规模和紧迫性以及它们在获取数据时面临的问题。我们探讨了这种难以满足的需求如何威胁到我们所热爱的互联网及其数十亿贡献者。最后,我们介绍了一些利用加密技术来提出解决这些问题和担忧的初创公司。

在深入探讨之前需要说明一点:这篇文章是从训练大型语言模型(LLMs)的角度写的,并非所有AI系统。因此,我经常将“AI”和“LLMs”互换使用。

展示数据

LLMs 需要三种主要资源:计算能力、能源和数据。在大量资本的支持下,公司、政府和初创企业同时在争夺这些资源。在这三者中,对计算能力的争夺最为引人注目,这部分归功于英伟达股价的迅速上涨。

数据

训练 LLMs 需要大量专用的图形处理单元(GPUs),特别是NVIDIA 的 A100、H100 和即将推出的B100型号。这些计算设备并不是你可以从亚马逊或本地计算机商店购买的。相反,它们的价格高达数万美元。NVIDIA决定如何在其AI实验室、初创公司、数据中心和超大规模客户之间分配这些资源。

在ChatGPT推出后的18个月内,GPU的需求远远超过了供应,等待时间高达11个月。然而,随着初创公司关闭、训练算法和模型架构的改进、其他公司推出的专用芯片以及NVIDIA扩大生产,供需动态正在正常化,价格也在下降。

其次是能源。运行数据中心中的GPUs需要大量的能源。根据一些估计,到2030年,数据中心将消耗全球能源的4.5%。随着这种激增的需求给现有电网带来压力,科技公司正在探索替代能源解决方案。亚马逊最近以6.5亿美元购买了一个由核电站供电的数据中心园区。微软已经雇佣了一位核技术主管。OpenAI的Sam Altman支持了 HelionExowatt 和 Oklo等能源初创公司。

从训练AI模型的角度来看,能源和计算能力只是商品。选择B100而不是H100,或者选择核能而不是传统能源,可能会使训练过程更便宜、更快或更高效,但不会影响模型的质量。换句话说,在创造最智能和最类人AI模型的竞赛中,能源和计算能力只是基本要素,而不是决定性因素。

关键资源是数据。

James Betker 是OpenAI的研究工程师。他自己说,训练了比任何人都有权训练的更多的生成模型。在一篇博文中,他指出,“在相同的数据集上训练足够长时间,几乎每个模型都有足够的权重和训练时间,最终都会收敛到同一点。”这意味着区分一个AI模型与另一个模型的因素是数据集,而不是其他。

当我们称一个模型为“ChatGPT”、“Claude”、“Mistral”或“Lambda”时,我们并不是在谈论其架构、使用的GPUs或消耗的能源,而是其训练的数据集。

如果数据是AI训练的食物,那么模型就是它们所吃的东西。

要训练一个最先进的生成模型需要多少数据?答案是非常多。

GPT-4仍然被认为是发布一年多后的最佳大型语言模型,估计使用了12万亿个标记(或约9万亿个单词)进行训练。这些数据来自对公开可用互联网的爬取,包括维基百科、Reddit、Common Crawl(一个免费的、开放的网页抓取数据存储库)、超过一百万小时的转录YouTube 数据以及代码平台如GitHub和Stack Overflow。

如果你认为这已经是很多数据了,请稍等。在生成AI中有一个叫做“Chinchilla Scaling Laws”的概念,这意味着对于给定的计算预算,将较小的模型在较大的数据集上训练比在较小的数据集上训练较大的模型更为有效。如果我们推算AI公司预计用于训练下一代AI模型(如GPT-5和Llama-4)的计算资源,我们会发现这些模型预计将需要五到六倍的计算能力,使用多达100万亿个标记进行训练。

数据

随着大部分公开互联网数据已经被抓取、索引并用于训练现有模型,额外的数据将来自哪里?这已成为AI公司面临的一个前沿研究问题。有两种解决方案。一种是生成合成数据,即由LLMs直接生成的数据,而不是人类。然而,这种数据在使模型更智能方面的有用性尚未经过测试。

另一种方法是简单地寻找高质量数据而不是合成生成。然而,获得额外数据是具有挑战性的,特别是当AI公司面临的问题不仅威胁到未来模型的训练,也威胁到现有模型的有效性时。

第一个数据问题涉及法律问题。尽管AI公司声称使用的是“公开可用数据”,但其中许多数据是受版权保护的。例如,Common Crawl数据集中包含了《纽约时报》和《美联社》等出版物的数百万篇文章以及其他受版权保护的材料。

一些出版物和创作者正在对AI公司采取法律行动,指控其侵犯版权和知识产权。《纽约时报》起诉了OpenAI和微软,指控其“非法复制和使用《纽约时报》的独特有价值的作品”。一群程序员联合提起集体诉讼,质疑使用开源代码训练GitHub Copilot(一种流行的AI编程助手)的合法性。

喜剧演员Sarah Silverman和作者Paul Tremblay也起诉AI公司,指控其未经许可使用他们的作品。

其他人则通过与AI公司合作来接受变革。《美联社》、《金融时报》和Axel Springer 都与OpenAI签署了内容许可协议。苹果公司正在探索与康泰纳仕和NBC等新闻组织达成类似协议。谷歌同意每年支付Reddit 6000万美元,以访问其API进行模型训练,而Stack Overflow 与 OpenAI 达成了类似的协议。Meta 据称曾考虑直接购买出版公司Simon & Schuster。

这些安排与AI公司面临的第二个问题——开放网络的关闭——不谋而合。

互联网论坛和社交媒体网站已经认识到,AI公司通过使用其平台数据训练模型所带来的价值。在与谷歌(以及未来可能与其他AI公司)达成协议之前,Reddit 开始对其以前免费提供的API收费,终结了其流行的第三方客户端。同样,Twitter也限制了API的访问,并提高了价格,Elon Musk利用Twitter数据为他自己的AI公司xAI训练模型。

即使是较小的出版物、同人小说论坛和其他生产内容供所有人免费消费(如果有的话,通过广告货币化)的互联网小众角落,现在也在关闭。互联网曾被设想为一个神奇的网络空间,每个人都可以找到分享其独特兴趣和怪癖的部落。那种魔力似乎正在慢慢消失。

这种诉讼威胁、多百万美元内容交易的增加以及开放网络的关闭有两个含义。

  1. 首先,数据战争严重倾向于科技巨头。初创公司和小公司既无法访问以前可用的API,也无法负担购买使用权所需的资金,而没有法律风险。这显然具有集中特性,富人可以购买最好的数据,从而创建最好的模型,变得更富有。
  2. 其次,用户生成内容平台的商业模式越来越不利于用户。像Reddit和Stack Overflow这样的平台依赖于数百万未付费的人类创作者和管理员的贡献。然而,当这些平台与AI公司达成数百万美元的协议时,他们既不补偿也不征求用户的许可,没有这些用户,就没有数据可供出售。
  3.   Reddit和Stack Overflow都因这些决定而经历了显著的用户罢工。联邦贸易委员会(FTC)也对 Reddit 将用户帖子出售、许可和分享给外部组织用于训练AI模型的行为展开调查。

这些问题对于训练下一代AI模型以及互联网内容的未来提出了相关问题。按照目前的情况,未来看起来不太乐观。加密解决方案能否在某种程度上为小公司和互联网用户提供公平竞争的机会,解决其中的一些问题?

数据管道

训练AI模型和创建有用的应用程序是复杂且昂贵的工作,需要数月的计划、资源分配和执行。这些过程包括多个阶段,每个阶段都有不同的目的和数据需求。

让我们分解这些阶段,以了解加密技术如何适应更大的AI拼图。

预训练

预训练是LLM训练过程中第一步且最耗费资源的步骤,形成了模型的基础。在这一步中,AI模型在大量无标签文本上进行训练,以捕捉世界的通用知识和语言使用信息。当我们说GPT-4使用了12万亿个标记进行训练时,这指的是预训练中使用的数据。

要理解为什么预训练是LLM的基础,我们需要对LLM的工作原理有一个高层次的概述。请注意,这只是一个简化的概述。你可以在Jon Stokes的优秀文章Andrej Karpathy的有趣视频Stephen Wolfram的出色书籍中找到更详尽的解释。

LLMs使用一种叫做 Next-Token Prediction 的统计技术。简单来说,给定一系列标记(即单词),模型尝试预测下一个最可能的标记。这个过程重复进行,形成完整的响应。因此,你可以将大型语言模型视为“完成机器”。

让我们用一个例子来理解这一点。

当我问ChatGPT“What direction does the sun rise from (太阳从哪个方向升起)?”时,它首先预测出单词“the”,然后依次预测出“sun rises from the East”这句话中的每一个单词。但是这些预测从何而来?ChatGPT如何确定在“the sun rises from”之后应该是“the East”而不是“the West”、“the North”或“Amsterdam”?换句话说,它如何知道“the East”比其他选项更有统计可能性?

数据

答案是从大量高质量训练数据中学习统计模式。如果考虑到互联网上的所有文本,什么更有可能出现--"太阳从东方升起 "还是 "太阳从西方升起"?后者可能出现在特定的语境中,比如文学隐喻("这就像相信太阳从西边升起一样荒谬")或关于其他星球的讨论(比如金星,太阳确实从西边升起)。但总的来说,前者更为常见。

数据

通过反复预测下一个单词,LLM 形成了一种通用的世界观(我们称之为常识)和对语言规则和模式的理解。另一种理解LLM的方法是将其视为互联网的压缩版本。这也有助于理解为什么数据需要既是大量的(更多模式可供选择),也是高质量的(提高模式学习的准确性)。

但正如前面讨论的,AI公司正在耗尽用于训练更大模型的数据。训练数据需求增长的速度远远快于开放互联网中新数据生成的速度。随着诉讼的临近和主要论坛的关闭,AI公司面临着严重的问题。

对于较小的公司来说,这个问题更加严重,因为它们无法负担与Reddit等专有数据提供商达成数百万美元的交易。

这引出了Grass,一家去中心化的住宅代理提供商,他们旨在解决这些数据问题。他们称自己为“AI的数据层”。让我们首先了解一下什么是住宅代理提供商。

互联网是训练数据的最佳来源,抓取互联网是公司获取这些数据的首选方法。在实践中,抓取软件在数据中心托管,以实现规模、便捷和效率。但拥有有价值数据的公司不希望其数据被用于训练AI模型(除非他们得到报酬)。为实施这些限制,他们通常会阻止已知数据中心的IP地址,防止大规模抓取。

这时,住宅代理提供商派上用场。网站仅阻止已知数据中心的IP地址,而不阻止像你我这样的普通互联网用户的连接,使我们的互联网连接,或住宅互联网连接,变得有价值。住宅代理提供商聚合了数百万这样的连接,以大规模抓取AI公司的数据。

然而,中心化的住宅代理提供商运作隐蔽。他们通常不明确他们的意图。用户如果知道某个产品在使用他们的带宽,可能不愿意分享。更糟的是,他们可能要求为产品使用的带宽得到补偿,这反过来又减少了他们的利润。

为保护他们的底线,住宅代理提供商将其消耗带宽的代码搭载在分布广泛的免费应用程序中,如手机实用工具应用(如计算器和语音记录器)、VPN提供商甚至消费者电视屏保中。用户认为他们在获取免费产品,实际上一个第三方住宅提供商在消耗他们的带宽(这些细节通常隐藏在很少有人阅读的服务条款中)。

最终,这些数据中的一些会流向AI公司,他们用这些数据训练模型并为自己创造价值。

Andrej Radonjic在经营自己的住宅代理提供商时,意识到了这些做法的非道德性质及其对用户的不公平性。他看到加密技术的发展,识别出了一种创建更公平解决方案的方法。这就是Grass在2022年末的成立背景。几周后,ChatGPT发布,改变了世界,把Grass放在了正确的时间和地点。

数据

与其他住宅代理提供商使用的隐蔽策略不同,Grass明确告知用户其带宽的使用情况,以训练AI模型为目的。作为回报,用户会直接获得奖励。这种模式颠覆了住宅代理提供商的运作方式。通过自愿提供带宽并成为网络的部分拥有者,用户从被动的参与者转变为积极的倡导者,提高了网络的可靠性,并从AI产生的价值中获益。

Grass的增长令人瞩目。自2023年6月推出以来,他们已拥有超过200万活跃用户,这些用户通过安装浏览器扩展或移动应用程序来运行节点并贡献带宽。这种增长在没有外部营销成本的情况下实现,得益于一个非常成功的推荐计划。

使用Grass的服务允许各类公司,包括大型AI实验室和开源初创公司,以较低的成本获取抓取训练数据。同时,每个普通用户通过分享其互联网连接获得报酬,并成为不断增长的AI经济的一部分。

数据

除了原始抓取数据外,Grass还为客户提供一些附加服务。

首先,他们将非结构化网页转换为易于AI模型处理的结构化数据。这一步骤,称为数据清洗,是AI实验室通常承担的资源密集型任务。通过提供结构化、清洁的数据集,Grass增强了其对客户的价值。此外,Grass还训练了一个开源LLM,以自动化抓取、准备和标记数据的过程。

其次,Grass将数据集捆绑了不可否认的来源证明。鉴于高质量数据对AI模型的重要性,确保数据集未被恶意网站或住宅代理提供商篡改对于AI公司来说至关重要。

这一问题的严重性在于像 Data & Trust Alliance 这样的机构的成立,这是一个包括Meta、IBM和沃尔玛在内的20多家公司组成的非营利组织,共同努力创建数据溯源标准,帮助组织确定一个数据集是否适合和值得信赖。

Grass也在采取类似措施。每次Grass节点抓取一个网页时,它还会记录验证该网页来源的元数据。这些溯源证明存储在区块链上,并与客户共享(客户可以进一步与其用户共享)。

尽管Grass正在Solana上构建,这是吞吐量最高的区块链之一,但在L1上存储每次抓取任务的溯源是不可行的。因此,Grass正在构建一个rollup(Solana上的第一个rollup之一),使用ZK处理器批量处理溯源证明,然后发布到Solana。这个rollup,Grass称之为“AI的数据层”,成为他们所有抓取数据的数据账本。

Grass的Web 3优先方法使其相对于中心化住宅代理提供商具有几个优势。首先,通过使用奖励来鼓励用户直接分享带宽,他们更公平地分配了AI生成的价值(同时也节省了支付应用开发者捆绑其代码的成本)。其次,他们可以为提供客户“合法流量”收取溢价,这在行业内非常有价值。

另一家在“合法流量”方面工作的协议是Masa。该网络允许用户传递其社交媒体平台(如Reddit、Twitter或TikTok)的登录信息。网络上的节点然后抓取这些平台的高度上下文相关的更新数据。这种模型的优势在于,收集的数据是普通用户在其社交媒体平台上看到的内容。实时地,您可以获取解释情绪或即将成为病毒的内容的丰富数据集。

这些数据集的主要用途有两个。

  1. 金融 - 如果你能看到成千上万的人在其社交媒体平台上看到的内容,你可以基于这些数据开发交易策略。可以在Masa的数据集上训练利用情绪数据的自主代理。
  2. 社交 - AI 伴侣(或像Replika这样的工具)的出现意味着我们需要模仿人类对话的数据集。这些对话还需要最新信息。Masa的数据流可以用于训练能够有意义地讨论最新Twitter趋势的代理。

Masa的方法是通过用户同意从封闭花园(如Twitter)获取信息,并使这些信息可供开发人员用于构建应用程序。这样一种社交优先的数据收集方法也允许构建围绕区域语言的数据集。

例如,一个说印地语的机器人可以使用从以印地语操作的社交网络中获取的数据。这些网络打开的应用前景尚待探索。

模型对齐

预训练的LLM远未准备好投入生产使用。想一想。模型目前只知道如何预测序列中的下一个单词,而其他都不知道。如果你给一个预训练的模型一些文本,比如“谁是中本聪”,任何这些都是有效的响应:

  1. 完成问题:中本聪?
  2. 将短语变成句子:是一个多年来困扰比特币信仰者的问题。
  3. 实际上回答问题:中本聪是创建比特币、第一种去中心化加密货币及其底层技术区块链的化名人物或团体。

旨在提供有用答案的 LLM 将提供第三种回答。然而,预先训练的模型并不能做出一致或正确的回答。事实上,它们经常会随机吐出一些对最终用户毫无意义的文字。最糟糕的情况是,模型在保密的情况下给出了与事实不符、有毒或有害的信息。当这种情况发生时,模型就会出现 "幻觉"。

数据

这就是预训练的GPT-3如何回答问题的

模型对齐的目标是使预训练模型对最终用户有用。换句话说,是将其从一个单纯的统计文本完成工具转变为一个理解和对齐用户需求并能进行连贯、有用对话的聊天机器人。

对话微调

这个过程的第一步是对话微调。微调是指在一个预训练的机器学习模型的基础上,进一步在一个较小的、有针对性的数据集上进行训练,以帮助其适应特定任务或用例。对于训练LLM来说,这个特定的用例是进行类似人类的对话。自然,这个微调的数据集是一组人类生成的提示-响应对,展示给模型如何行为。

这些数据集涵盖不同类型的对话(问答、摘要、翻译、代码生成),通常由高学历的人类(有时称为AI导师)设计,他们具有优秀的语言技能和主题专业知识。

最先进的模型如GPT-4估计在~100,000对这样的提示-响应对上进行了训练。

数据

提示-响应对的示例

从人类反馈中强化学习(RLHF)

可以将这一步视为类似于人类训练宠物狗:奖励好的行为,惩罚坏的行为。模型收到一个提示,其响应与人类标注者共享,标注者根据输出的准确性和质量对其进行评分(例如1-5分)。RLHF的另一种版本是生成一个提示并产生多个响应,由人类标注者从最佳到最差进行排名。

数据

RLHF 任务示例

RLHF旨在引导模型朝着人类偏好和期望的行为发展。事实上,如果你是ChatGPT的用户,OpenAI也会将你作为RLHF数据标注者!这发生在模型有时生成两个响应并要求你选择更好的一个时。

甚至是简单的点赞或点踩图标,提示你评价回答的有用性,也是模型的一种 RLHF 训练。

数据

使用AI模型时,我们很少考虑到背后投入的数百万小时的人类劳动。这不仅仅是LLMs独有的需求。历史上,即使是传统机器学习用例,如内容审核、自动驾驶和肿瘤检测,也需要大量的人类参与进行数据标注。(这篇2019年《纽约时报》的优秀故事展示了iAgent印度办公室背后的幕后故事,这家公司专门从事人类标注)。

Fei-Fei Li用来创建ImageNet数据库的Mechanical Turk,被Jeff Bezos称为“人工的 AI ”,因为它的工作人员在 AI 训练中发挥的幕后作用。

在今年早些时候的一个离奇故事中,亚马逊的Just Walk Out商店,顾客可以简单地从货架上拿取物品然后走出(稍后自动收费),并非由某种先进的AI驱动,而是由1000名印度合同工手动筛选店铺录像。

数据

关键是,每个大规模AI系统在某种程度上都依赖于人类,LLMs只增加了对这些服务的需求。像Scale AI这样的公司,其客户包括OpenAI,通过这种需求达到了110亿美元的估值。甚至Uber也在重新安排一些印度工人在不驾驶车辆时标注AI输出。

在成为全栈AI数据解决方案的过程中,Grass也正在进入这一市场。他们将很快发布一个AI标注解决方案(作为其主要产品的扩展),用户可以通过完成RLHF任务获得奖励。

问题是:Grass通过去中心化的方式进行这一过程,相对于数百家在同一领域的中心化公司有哪些优势?

Grass可以通过代币激励来引导工人网络。正如他们奖励用户分享其互联网带宽的代币一样,他们也可以奖励人类标注AI训练数据。在Web2世界中,支付给全球分布的零工经济工人尤其是全球分布的任务,用户体验远不及在像Solana这样的快速区块链上提供的即时流动性。

加密社区尤其是Grass现有的社区,已经有大量受过教育、互联网原生、技术娴熟的用户。这减少了Grass在招聘和培训工人上需要花费的资源。

你可能会怀疑,标注AI模型响应以换取奖励的任务是否会吸引农场主和机器人。我也曾这样想过。幸运的是,已经进行了大量研究,探索使用共识技术来识别高质量标注者并筛除机器人。

请注意,Grass至少目前仅进入RLHF市场,而不帮助公司进行对话微调,这需要高度专业化的劳动力和更难以自动化的物流。

专门化微调

完成预训练和对齐步骤后,我们就得到了所谓的基础模型。基础模型对世界如何运作有一个通用的理解,并能在广泛的主题上进行流利的类人对话。它还对语言有很好的掌握,能够轻松帮助用户写邮件、故事、诗歌、文章和歌曲。

当你使用ChatGPT时,你是在与基础模型GPT-4进行互动。

基础模型是通用模型。尽管它们对数百万个主题有足够的了解,但它们并不专门研究任何一个。当被问及帮助理解比特币的代币经济学时,响应会有用且大多数情况下准确。然而,当你要求它列出类似EigenLayer这样的再抵押协议的安全边缘情况风险时,你不应该太相信它。

请记住,微调是指在一个预训练的机器学习模型的基础上,进一步在一个较小的、有针对性的数据集上进行训练,以帮助其适应特定任务或用例。之前我们讨论了在将原始文本完成工具转变为对话模型时的微调。同样,我们也可以微调结果基础模型,使其专门从事某一特定领域或任务。

Med-PaLM2是Google基础模型PaLM-2的微调版本,旨在提供高质量的医学问题答案。 MetaMath 是微调在Mistral-7B上的数学推理模型。一些微调模型专门研究广泛类别,如讲故事文本摘要客户服务,而另一些则专门研究细分领域,如葡萄牙诗歌Hinglish翻译斯里兰卡法律

要为特定用例微调模型,需要高质量的相关领域数据集。这些数据集可以来源于特定网站(如本新闻通讯中的加密数据)、专有数据集(例如一家医院可能会转录数千次的医生-病人互动),或专家的经验(需要详细采访以捕捉)。

数据

随着我们进入拥有数百万AI模型的世界,这些细分的长尾数据集变得越来越有价值。这些数据集的拥有者,从大型会计公司如EY加沙的自由摄影师,这些数据集的所有者都在争相购买这些正在迅速成为 AI 军备竞赛中最热门商品的数据集。Gulp Data 等服务的出现就是为了帮助企业公平地评估其数据的价值。

OpenAI 甚至发布了一项数据合作伙伴公开请求,寻求拥有“反映人类社会的大规模数据集,而这些数据集目前不易公开获取”的实体合作。

我们知道至少有一种很好的方法来匹配寻找细分产品买家和卖家的需求,那就是互联网市场。Ebay为收藏品创建了一个,Upwork为人类劳动创建了一个,数不胜数的平台为无数其他类别创建了平台。毫不意外,我们也看到了细分数据集的市场的出现,有些是去中心化的。

Bagel 正在构建“人工通用基础设施”,一套工具,使得“高质量、多样化数据”的持有者能够以无信任和隐私保护的方式与AI公司共享其数据。他们使用零知识(ZK)和完全同态加密(FHE)等技术来实现这一目标。

公司通常拥有高价值的数据,但由于隐私或竞争问题无法变现。例如,一个研究实验室可能拥有大量的基因组数据,但为了保护病人隐私不能共享,或者一个消费品制造商可能拥有供应链废物减少数据,但在不透露竞争机密的情况下无法披露。Bagel利用密码学的进步,使这些数据集变得有用,同时消除了附带的担忧。

Grass的住宅代理服务也可以帮助创建专门的数据集。例如,如果你想微调一个提供专家烹饪建议的模型,你可以要求Grass抓取Reddit的r/Cooking和r/AskCulinary等子版块的数据。同样,旅行导向模型的创建者可以要求Grass抓取TripAdvisor论坛的数据。

虽然这些不完全是专有数据源,但它们仍然可以成为其他数据集的有价值补充。Grass还计划利用其网络创建存档数据集,任何客户都可以重复使用。

上下文级别数据

试着问问你喜欢的 LLM “你的训练截止日期是什么时候?”你会得到一个类似2023年11月的答案。这意味着基础模型仅提供该日期之前的可用信息。当你考虑到训练这些模型(甚至微调它们)是多么计算密集和耗时时,这一点是可以理解的。

要保持它们实时更新,你必须每天训练和部署一个新模型,这简直不可能实现(至少目前不可能)。

然而,对于许多用例来说,没有关于世界最新信息的AI是毫无用处的。例如,如果我在使用一个依赖于LLMs响应的个人数字助理,当被要求总结未读电子邮件或提供利物浦上场比赛的进球者时,这些助手将处于不利地位。

为了绕过这些限制并基于实时信息提供用户响应,应用程序开发者可以查询并将信息插入称为基础模型的“上下文窗口”的输入文本中。上下文窗口是LLM可以处理以生成响应的输入文本。它以标记为单位测量,表示LLM在任何给定时刻可以“看到”的文本。

所以,当我要求我的数字助理总结我的未读电子邮件时,应用程序首先查询我的电子邮件提供商以获取所有未读电子邮件的内容,将响应插入发送给LLM的提示中,并附加一个类似“我已提供Shlok收件箱中的未读电子邮件列表。请总结它们。”的提示。LLM有了这个新上下文后,便可以完成任务并提供响应。将这一过程视为你复制粘贴一封电子邮件到ChatGPT并要求它生成响应,但这一过程在后台进行。

为了创建具有最新响应的应用程序,开发者需要访问实时数据。Grass节点可以实时抓取任何网站的数据,为开发者提供低延迟的实时数据,简化了上下文增强生成(RAG)工作流。

这也是Masa今天的定位。就目前而言,Alphabet、Meta和X是唯一拥有不断更新用户数据的大平台,因为它们拥有用户基础。Masa为小型初创公司提供了公平的竞争环境。

这一过程的技术术语是检索增强生成(RAG)。RAG工作流是所有现代LLM应用程序的核心。这一过程涉及文本向量化,即将文本转换为数字数组,这些数组可以被计算机轻松解释、操作、存储和搜索。

Grass计划在未来发布物理硬件节点,为客户提供向量化、低延迟的实时数据,以简化其RAG工作流。

大多数业内人士预测,未来上下文级别查询(也称为推理)将利用大部分资源(能源、计算、数据)。这是有道理的。模型的训练总是一个时间限制的过程,消耗一定的资源分配。应用级别的使用,另一方面,可以有理论上无限的需求。

Grass已经看到了这一点,大部分的文本数据请求来自希望获得实时数据的客户。

LLMs 的上下文窗口随着时间的推移而扩大。当OpenAI首次发布ChatGPT时,它的上下文窗口为32,000个标记。不到两年后,谷歌的Gemini模型的上下文窗口超过了100万个标记。100万个标记相当于11本300页的书——大量的文本。

这些发展使得内容窗口可以构建的内容的影响远远超过了访问实时信息。有人可以,例如,丢入所有 Taylor Swift 歌曲的歌词,或者这份通讯的整个存档到上下文窗口,并要求LLM生成相似风格的新内容。

除非明确编程不允许,否则模型将生成一个相当不错的输出。

如果你能感受到这一讨论的方向,请准备好接下来要讨论的内容。到目前为止,我们主要讨论了文本模型,但生成模型在其他模态(如声音、图像和视频生成)上的表现也越来越出色。我最近在Twitter上看到了Orkhan Isayen 的这幅非常酷的伦敦插图。

数据

Midjourney,一个流行且非常出色的文本到图像工具,具有一个叫做风格调节器(Style Tuner)的功能,可以生成与现有图像风格相似的新图像(这一功能也依赖于类似RAG的工作流,但不完全一样)。我上传了Orkhan的人类创作的插图,并使用风格调节器提示Midjourney将城市改为纽约。这是我得到的:

数据

四张图片,如果你浏览艺术家的插图,可能很容易被误认为是他们的作品。这些图像是在30秒内由AI基于单个输入图像生成的。我要求‘纽约’,但主题真的可以是任何东西。在其他模态,如音乐中,也可以进行类似的复制。

回想我们之前讨论的部分,诉讼AI公司的实体之一是创作者,你可以明白他们为什么有道理。

互联网曾是创作者的福音,使他们能够与全世界分享他们的故事、艺术、音乐和其他形式的创意表达;使他们能够找到1000个真正的粉丝。现在,同一个全球平台正成为对他们生计的最大威胁。

为什么要支付Orkhan 500美元的佣金,而你可以通过30美元/月的Midjourney订阅得到一个足够好的相似作品?

听起来像反乌托邦?

技术的奇妙之处在于它几乎总是找到解决其自身所创造问题的方法。如果你翻转看似对创作者不利的情况,你会发现这是一个前所未有的机会,可以将他们的才华货币化。

在AI之前,Orkhan可以创作的作品数量受到一天中时间的限制。通过AI,他们现在理论上可以服务无限的客户。

要理解我的意思,让我们看看elf.tech,这是音乐家Grimes的AI音乐平台。Elf Tech允许你上传一首歌的录音,它会将其转变为Grimes的声音和风格。歌曲赚取的任何版税将由Grimes和创作者五五分成。这意味着作为Grimes的粉丝,或者她的声音、音乐或发行的粉丝,你可以简单地想出一首歌的点子,该平台会使用AI将其转变为Grimes的声音。

如果这首歌走红,你和Grimes都将受益。这也使得Grimes能够被动地扩展她的才华和杠杆她的发行。

TRINITI 是 elf.tech 的核心技术,由 CreateSafe 公司开发。他们的论文揭示了我们所预见的区块链和生成式 AI 技术最有趣的交集之一。

通过创造者控制的智能合约扩展数字内容的定义,并通过基于区块链的点对点支付访问微交易重新构想分发,使任何流媒体平台能够立即认证和访问数字内容。然后生成AI根据创造者指定的条款执行即时微支付并将体验流式传输给消费者。

Balaji更简单地总结了这一点。

数据

随着新媒介的出现,我们急于弄清人类将如何与之互动,当与网络结合时,它们成为变革的强大引擎。书籍推动了新教革命,广播和电视是冷战的关键部分,而媒体通常是双刃剑,可以用来做好事,也可以用来做坏事。

今天,我们所拥有的是拥有大量用户数据的中心化公司。这就好比我们信任我们的公司会为我们的创造力、精神健康和更好的社会发展做正确的事,把这么大的权力交给少数几家公司,但我们几乎不了解其中许多公司的内部运作。

我们正处于LLM革命的早期阶段。就像2016年的以太坊一样,我们几乎不知道可以用它们构建什么样的应用程序。是能与我奶奶用印地语交流的LLM?能在各种信息流中找到高质量数据的代理?一种机制让独立贡献者分享特定文化的细微差别(如俚语)?我们还不太知道什么是可能的。

然而,很明显的是,构建这些应用程序将受到一个关键成分的限制:数据。

像Grass、Masa和Bagel这样的协议是其获取的基础设施,并以公平的方式推动其获取。人类的想象力是建立在它之上的限制。这对我来说似乎令人兴奋。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
免责声明:本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况,及遵守所在国家和地区的相关法律法规。