Google发布Gemini 1.5,OpenAI推出Sora,引发媒体关注。Sora表现出色,但Gemini 1.5带来的超长上下文能力也具有重要意义。AGI架构的核心要素逐步清晰,MoE架构将带来更多竞争机遇,视频生成领域的自进化闭环已开启。2024年,大模型竞争激烈,多模态、长上下文、MoE架构和视频生成自对弈是关注重点。视频生成技术将让AI实现自学习和自进化,多模态技术提升智能和推理能力,MoE技术为开源社区带来新机遇。个性化Agent和视觉生成技术将成为未来重点关注对象,为元宇宙构建带来巨大机遇。
原文作者:科技最前沿的
原文来源:Atom Capital
最近AI领域的卷王们卷得风生水起,Google刚发布Gemini1.5,OpenAI就祭出了Sora炸场。Sora惊艳的效果让其在媒体舆论上占尽风头,使得Gemini 1.5一发布便“黯然失色”。但实际上,Gemini 1.5所带来的超长上下文能力意义非同小可。从两大巨头最新的发布中,我们窥见了24年AI进化的一些新线索——AGI架构的几大核心要素已逐步清晰、MoE架构将给开源世界带来更多竞争机遇、以及AI在视频生成领域的“自进化闭环”已经开启…… 这其中也蕴藏着许多新的机遇,在此跟大家一同分享和探讨。
随着Gemini 1.5和Sora发布,我们觉得,大模型或者说AGI的基本结构又进一步清晰。目前可以看到有四个核心要素:
模态层
模态包括语言、代码、语音、视觉等各种模态。这部分类似于representation, 其实是编解码,不同模态用不同的编解码头。这块相对浅层。背后的原因,我们推测是因为LLM作为基准,其他模态可以在此基础上做跨模态的知识迁移,因而模态部分的学习变得简单。例如,Sora 利用Transformer架构学习文本与视频之间以及视频本身的时空关系,通过将视频数据token化,实现了视频生成模型与大型语言模型(LLM)在架构上的无缝集成。Transformer架构本身跟语言关系不大,它只是在处理token之间的关系,最后再把这些token折换成语言。从这个意义上来说,不同模态的”语料“之间并没有质的区别。由于LLM是目前能力最强的模型,未来多模态模型很可能以LLM作为出发点,将LLM的认知能力迁移到其他模态,这不仅提高了其他模态的智能上限,也显著减少了对数据的依赖。
在Gemini 1.5里有一个例子令人印象深刻。卡拉芒语是一种全球使用人数不足200 人的语言,几乎从未在互联网上留下痕迹。把卡拉芒语语法手册放在prompt里,模型仅仅通过上下文学习(in-context learning),就能够学会将英语翻译成卡拉芒语,质量可与使用相同材料学习的人相媲美。这意味着,长提示效果非常好,模型可以从上下文给出的信息中学习新技能,而不需要额外的微调。
世界模型(World Model)
AI落地到具体应用场景,要理解当下任务并预测未来情景,需要超越简单的文本学习,深入获取各个领域知识、领域相关的私有数据以及相关任务的“过程数据”(即领域专家是如何分解任务、产生结果的)。人类的世界模型是非常复杂的网络。目前对于Sora到底多深地真正认知物理世界,是有争议的。
推理能力(Reasoning)
指AI解决复杂问题的能力,其中涉及规划、调整、组织、反馈、执行、预测等等。只有AI具备了足够的推理能力,才能真正落地到生产环境解决真实的问题。这是智能的核心。
记忆和学习能力
Gemini 1.5带来的1M token长上下文是个非常重要的突破,意味着模型已经能够一次性处理海量信息,而且是多模态——如1小时的视频、11小时的音频、超过30,000行的代码库、或是超过700,000个单词。这说明它的session context已经是一个有效的memory了。长上下文增强了in-context learning能力(Google最近发布https://arxiv.org/pdf/2402.09727.pdf,介绍了一种非常有效的in-context learning方法)。这样一来,AI的学习从pre-train阶段挪到了上下文prompt中,极大降低了学习的成本,让实时学习成为可能。最近,OpenAI也提到未来将支持cross session的long term memory。可见这是大模型发力解决的重点之一。
以上四个核心要素构成了基础的AI架构。其中,模态层相对简单,真正的壁垒在于其他三个要素。类比人脑,人脑也是靠浅层的多模态信息编码成更深层的神经元信号,来实现更深入的理解。除模态层外,其他三要素是通过embedding来交流的。不论什么模态的信息,最终都是抽象成跨模态通用的embedding来处理。其中,记忆和学习能力的技术相对成熟,大模型最核心的挑战还在于世界模型的构建以及推理能力的提升。
Gemini 1.5采用的是MoE架构(此前Mistral也是采用了此架构,据称GPT4也是采用此架构)。与传统的作为一个庞大的神经网络运行的Transformer不同,MoE模型由众多小型的「专家」神经网络组成。这些模型可根据不同的输入类型,学会仅激活最相关的专家网络路径。这样的专门化可以使模型效率大幅提升。随着Mistral 8X7B、Gemini 1.5等一系列业内头部大模型相继采用MoE架构,可以看到,MoE已经成为一种主流的AI大模型架构。简单地类比,MoE架构为大模型提供了类似人类大脑的脑区分工。虽然整体模型的参数量不小,但解决任何单一任务只需要运用对应的专家模型,实时调用的参数量小很多,推理效率和成本得到了很大优化。我们认为,MoE架构的普及有可能会打破目前大模型领域闭源与开源的格局,让开源大模型迎来新的发展机遇—— MoE的每个专家模型都很小,开源社区完全可以“拼齐”这些模块;或者基于开源的MoE大模型,针对一两个专家模型做对应的优化,从而提升其在某个专业领域的能力。开源模型之前的主要问题是在算力、数据和资本上比拼不过闭源巨头,而训练MoE这些小的专家模型极大降低了对这方面的资源要求,可能给竞争格局带来一些全新的变量。
这两天关于Sora大模型对于“物理世界”的模拟已经被讨论的很多,这当然是Sora最为重要的影响,鉴于很多文章阐述清晰,在此不再赘述。在我们看来,除了对于物理世界模拟之外,Sora带来的另一突破可能是开启了视频生成自对弈(self-play) 的恐怖闭环:生成视频 -> 理解视频生成文本 -> 增强文本(augment)-> 生成视频 -> ...既可以用来改进每个步骤,让这个循环尽可能做成每轮生成的一样;也可以在中间通过改变text 或其它特征进行创作——这个自反馈自学习闭环的形成意味AI已经可以通过自对弈完成自学习和自进化,一旦进入这个循环,未来的AI将会以一种超乎想象的速度自我进化,不断地扩展其知识边界和创造力。对于人类而言,这意味着在视频生成这一领域,未来人类将很难与AI Agent“抢饭碗”了——正如当今的顶尖人类棋手面对AlphaGo时的处境一样。
2024一开年,就有两大巨头的新作炸场,大模型的竞争越来越激烈,也让我们对于这一年AI技术的发展更加兴奋和期待,根据Gemini 1.5与Sora揭示的线索,在24年我们认为AI领域如下值得从业者关注,也是我们会重点关注的投资方向。
多模态正如我们在2023年终盘点文章(Atom Capital: AI年度回顾与展望)中所提及,我们预计随着多模态(尤其是视觉模态)的引入,大模型的智能及推理能力会再上一个台阶。主要是如下两个原因:
而随着视觉模态的引入、大模型智能的提升,我们预计将有非常多全新的应用场景和应用形态被解锁,也是应用层最值得期待的变量。
MoE带来的开源机会
正如上文所提,MoE所带来的模型成本上的大幅降低,将给开源社区带来一些全新机遇。我们会持续关注由MoE所带来的大模型开源闭源生态格局的变化及其中的创投机遇。
Personalized Agent
Agent仍然会是我们关注的重点,随着AI学习能力的持续进化,在2024年我们会格外关注Personalized Agent。即Agent基于用户个人数据进行持续学习,实现个性化。这背后的核心技术就是Agent如何学习,一旦这个问题得到解决,就可以通过培训Agent来落地不同场景,实现低成本的定制化。我们相信,未来会看到AI workers、AI customers等大量出现在生活和工作中,它们会像人一样通过选育用留,成为社会的一部分。
视觉生成带来的元宇宙的机遇
Sora极大降低了构建一个”物理世界“的成本,对于元宇宙来说,这意味着”虚拟宇宙"的构建到海量内容填充在成本上的大幅下降。虽然“元宇宙”已经不是一个新概念,但我们认为Sora的到来可能才真正意义上让“元宇宙”的广泛应用变得可能。