a16z:生成式人工智能领域的 4 个突破点

Sarah Wang and Shangda Xu热度: 19226

未来即将到来的4个关键创新方向:导向、记忆、"手和脚"以及多模态。

原文标题:The Next Token of Progress: 4 Unlocks on the Generative AI Horizon

原文作者:Sarah Wang and Shangda Xu

原文来源:yakihonne

编译:DAOrayaki

大型语言模型(LLMs)已经成为科技行业的热点,为我们提供了一些令人称奇的体验——从几秒钟内编写一周的代码,到生成比与人类进行的对话更富有共情的对话。通过使用成千上万个GPU进行数万亿令牌的数据训练,LLMs展示了出色的自然语言理解能力,并改变了文案和代码等领域,将我们推进了全新、令人兴奋的生成式AI时代。与任何新兴技术一样,生成式AI也受到了一些批评。尽管这些批评在一定程度上反映了LLMs当前能力的局限性,但我们将这些阻碍视为进一步创新的机会,而不是技术本质性的缺陷。

为了更好地了解LLMs的近期技术突破,并为创始人和运营者做好未来准备,我们与一些领先的生成式AI研究人员进行了交谈,他们正在积极构建和训练一些最大最前沿的模型,包括Anthropic公司的首席执行官Dario Amodei、Cohere公司的首席执行官Aidan Gomez、Character.AI公司的首席执行官Noam Shazeer以及AI21 Labs的Yoav Shoham。这些交谈确定了未来即将到来的4个关键创新方向:导向、记忆、"手和脚"以及多模态。在本文中,我们将讨论这些关键创新如何在未来6到12个月内发展,以及对于对将AI整合到自己的业务中感兴趣的创始人来说,如何利用这些新进展。

导向

许多创始人对在其产品和工作流程中使用LLMs表示担忧,因为这些模型有可能产生幻觉和重现偏见。为了解决这些问题,一些领先的模型公司正在致力于改进导向技术——一种在LLMs输出中更好地控制模型结果、让模型更好地理解和执行复杂用户需求的方法。Noam Shazeer在这方面提到了LLMs和孩子之间的相似之处:“这是如何更好地引导[模型]的问题...我们在LLMs上面临的问题就是我们需要正确的方式告诉它们如何按照我们的要求行事。小孩子也是如此——他们有时会编造事情,对幻想和现实没有一个明确的理解。”尽管在模型提供商和类似Guardrails和LMQL的工具出现之后,在导向能力方面[1]已经取得了显著的进展,研究人员仍在不断取得进步,我们认为这对于更好地将LLMs产品化对于最终用户至关重要。

在企业公司中,改进的导向尤其重要,因为不可预测行为的后果可能是昂贵的。Amodei指出,LLMs的不可预测性会让人们感到不安,作为一个API提供者,他希望能够“对着客户说‘不,模型不会做这个’,或者至少很少会这样做。”通过改进LLMs的输出,创始人们可以更有信心地确保模型的性能与客户需求相符。改进的导向还将为其他行业的广泛采用铺平道路,这些行业对精确性和可靠性的要求更高,例如广告行业,其中广告投放的风险很高。Amodei还认为改进的导向可以应用于“法律用例、医疗用例、存储金融信息和管理金融赌注,以及需要保护公司品牌的场景。您不希望您所整合的技术是不可预测或难以预测或刻画的。”通过更好的导向,LLMs还能够在少量提示工程的情况下完成更复杂的任务,因为它们将能够更好地理解整体意图。

LLMs导向方面的进展还有可能在用户期望定制和准确回应的敏感消费者应用中开启新的可能性。虽然当用户与LLMs进行对话或创造性交互时,他们可能会容忍较低准确性的输出,但是当用户使用LLMs来协助日常任务、指导重要决策或增强生活教练、治疗师和医生等专业人士时,他们希望得到更准确的输出。有人指出,LLMs有望取代搜索等已深入人心的消费者应用,但在这成为真正可能之前,我们可能需要更好的导向来改善模型输出并建立用户信任。

关键突破点:用户可以更好地定制LLMS的输出。

记忆

由LLMs驱动的文案撰写和广告生成应用程序已经取得了巨大的成功,从而在营销人员、广告商和创业者中迅速流行起来。然而,目前大多数LLMs的输出相对泛化,这使得难以将它们用于需要个性化和情境理解的用例。虽然提示工程和微调可以提供一定程度的个性化,但是提示工程的可扩展性较差,而微调往往代价高昂,因为它需要一定程度的重新训练,并且通常需要与大多数闭源LLMs紧密合作。为每个个体用户进行微调模型通常是不可行或不可取的。

上下文学习是实现这一目标的圣杯,其中LLMs从您的公司生成的内容、您公司的特定行话和特定上下文中获取信息,以创建更精细、针对特定用例的输出。为了实现这一目标,LLMs需要增强的记忆能力。LLM记忆有两个主要组成部分:上下文窗口和检索。上下文窗口是模型可以处理和用于指导其输出的文本,除了它被训练的数据语料库之外。检索是指从模型的训练数据语料库之外的数据体中检索和引用相关信息和文档(“上下文数据”)。目前,大多数LLMs的上下文窗口有限,无法原生地检索附加信息,因此生成的输出缺乏个性化。然而,通过更大的上下文窗口和改进的检索,LLMs可以直接提供更加精细的、针对个别用例的输出。

特别是通过扩展上下文窗口,模型将能够处理更大量的文本并更好地保持上下文,包括在对话中保持连贯性。这将进一步显著提高模型在需要更深入理解较长输入的任务中的能力,例如总结长篇文章或在长时间对话中生成连贯且上下文准确的回应。在上下文窗口方面,我们已经看到了显著的改进——GPT-4具有8k和32k标记的上下文窗口,相比之下,GPT-3.5和ChatGPT的上下文窗口分别为4k和16k标记,而Claude最近将其上下文窗口扩展到惊人的100k标记[2]。

仅扩展上下文窗口并不能充分改善内存,因为推理的成本和时间与提示的长度呈准线性甚至二次方关系。[3]检索机制通过与提示相关的上下文数据增强和完善LLM的原始训练语料库。由于LLMs是在一个信息体上进行训练的,并且通常难以更新,检索的两个主要好处是根据Shoham的说法:“首先,它允许您访问在训练时没有的信息源。其次,它使您可以将语言模型聚焦在您认为与任务相关的信息上。”矢量数据库(例如Pinecone)已成为高效检索相关信息的事实标准,并且作为LLMs的内存层,使模型更容易快速准确地搜索和引用海量信息中的正确数据。

增加的上下文窗口和检索将在企业用例中尤为重要,例如导航大型知识库或复杂数据库。公司将能够更好地利用其专有数据,如内部知识、历史客户支持票据或财务结果,作为LLMs的输入,而无需进行微调。改进LLMs的记忆将在培训、报告、内部搜索、数据分析和业务智能以及客户支持等领域带来改进和深度定制的能力。

在消费者领域,改进的上下文窗口和检索将实现强大的个性化功能,从而革新用户体验。Noam Shazeer认为:“其中一个重大突破将是开发出一种具有非常高的内存容量,可以针对每个用户进行定制,同时在规模上仍然具有成本效益的模型。您希望您的治疗师了解您的生活方方面面;您希望您的老师了解您已经掌握的知识;您希望生活教练能够就正在发生的事情向您提供建议。他们都需要上下文。” Aidan Gomez对此发展也表示兴奋。“通过让模型访问与您独特相关的数据,如您的电子邮件、日历或直接消息,”他说,“模型将了解您与不同人的关系以及您如何与朋友或同事交谈,并在这种情况下帮助您最大程度地提供帮助。”

关键突破点:LLMs将能够考虑大量相关信息,并提供更个性化、定制和有用的输出。

“手臂和腿部”:赋予模型使用工具的能力

LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班,但它们本身无法原生地预订航班(尽管像ChatGPT的插件等技术进展正在推动这一边界)。Amodei表示:“这个大脑在理论上拥有所有这些知识,只是缺少从名称到按钮的映射。”他说:“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑,它知道如何移动,但它还没有连接上手臂和腿部。”

随着时间的推移,我们已经看到公司不断改善LLMs使用工具的能力。像必应和谷歌这样的老牌公司和Perplexity和You.com这样的初创公司推出了搜索API。AI21 Labs推出了Jurassic-X,它通过将模型与一组预定工具(包括计算器、天气API、维基百科API和数据库)结合起来,解决了独立LLMs的许多缺陷。OpenAI推出了ChatGPT的插件测试版,允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互,这一突破被认为类似于苹果的“应用商店”时刻。最近,OpenAI在GPT-3.5和GPT-4中引入了函数调用[4] ,允许开发者将GPT的能力与任何外部工具进行链接。

通过从知识挖掘转向行动导向,增加手臂和腿部的能力有望在各种公司和用户类型之间实现一系列用例。对于消费者而言,LLMs可能很快就能给出菜谱建议,然后为您订购所需的食材,或者建议一个早午餐地点并为您预订餐桌。在企业领域,创始人可以通过接入LLMs使他们的应用程序更易于使用。正如Amodei所指出的:“对于从用户界面角度来说非常难以使用的功能,我们可能只需用自然语言描述即可实现复杂的操作。”例如,对于Salesforce等应用程序,LLM集成应允许用户用自然语言进行更新,并使模型自动进行这些更改,从而大大减少了维护CRM所需的时间。像Cohere[5]和Adept[6]这样的初创公司正在致力于将LLMs集成到这类复杂工具中。

Gomez认为,虽然LLMs能够在2年内使用Excel等应用程序的可能性越来越大,但“仍然需要进行许多细化工作。我们将拥有第一代能够使用工具的模型,这将是引人注目但易碎的。最终,我们将获得梦寐以求的系统,我们可以将任何软件交给模型,并附上一些描述,例如‘这是工具的功能,这是如何使用它的’,它将能够使用它。一旦我们可以为LLMs提供特定和通用的工具,它所带来的自动化将成为我们领域的巅峰之作。”

关键突破点:LLMs将能够与我们今天使用的工具进行更加有效的交互。

多模态

尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。

随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。

多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。

关键突破点:多模态模型能够在没有重大定制的情况下推理图像、视频,甚至物理环境。

尽管LLMs存在一些实际限制,但研究人员在短时间内对这些模型进行了惊人的改进。事实上,我们在撰写本文时已经多次更新过它,这证明了该领域技术的快速发展。Gomez也表示同意:“LLM在20次中有1次编造事实显然还是太高了。但我真的非常有信心,这是我们第一次构建这样的系统。人们的期望相当高,所以目标已经从‘计算机很笨,只会做数学’变成了‘一个人可能做得更好’。我们已经足够弥合差距,以至于批评集中在人类能做到什么程度上。”

我们特别对以下4项创新感到兴奋,它们正处于改变创业者构建产品和经营公司方式的临界点。从长远来看,潜力更大。Amodei预测:“在某个时刻,我们可能会拥有一个模型,它能够阅读所有生物数据,并找出治愈癌症的方法。”现实情况是,最好的新应用可能仍然是未知的。在Character.AI,Shazeer让用户开发这些用例:“我们将看到许多新的应用程序解锁。对我来说很难说出这些应用程序是什么。将会有数百万个应用程序,用户比少数工程师更善于发现如何使用技术。”我们迫不及待地期待这些进步将如何影响我们作为创业者和公司在生活和工作中的方式,因为这些新工具和能力赋予了我们新的力量。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
免责声明:本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况,及遵守所在国家和地区的相关法律法规。