引入AlphaGo搜索,全新MCTS视频生成框架长视频时长超Sora
据动察 Beating 监测,来自滑铁卢大学、布朗大学等机构的研究人员,在 ICLR 2026 提交的论文中提出了一种名为 Planning at Inference 的全新推理时缩放 (Test-Time Scaling) 框架,首次将 AlphaGo 的蒙特卡洛树搜索 (MCTS) 算法跨界应用于长视频生成。这套框架将长视频生成任务建模为顺序决策问题,系统在推理阶段引入 MCTS,利用前瞻性回溯 (look-ahead rollouts) 和反向传播奖励评估多种视频延续片段,从根本上解决了传统分块或单次生成中普遍面临的语义漂移与误差累积难题。 为了在连续的视频生成空间中实现高效探索,研究团队特别设计了 Multi-Tree MCTS (多树蒙特卡洛树搜索) 变体。相较于在固定算力预算下采用单一搜索树的传统方法,多树架构能够以更合理的剪枝与分支系数在连续状态空间中展开广泛搜寻,显著提升探索效率。更重要的是, Planning at Inference 具有极高的模块化特征,属于完全即插即用的推理时优化方案。开发人员无需对底层大模型进行任何重新训练或微调,即可将这套方案直接部署于现有的视频生成底座。 在以英伟达开源视频预测模型 Cosmos-Predict2 为底座的实验中, Planning at Inference 展现出强大的生成表现。在长视频生成评测中,这套方案成功生成了超过 20 秒的高质量连贯视频。测试数据表明,在物体持久性、时间连贯性以及文本-视频对齐度等核心指标上, MCTS 搜索生成质量相比贪婪搜索 (Greedy Search) 、束搜索 (Beam Search) 和 Best-of-N 等传统基线方法实现了大幅提升。相比当前行业领先的闭源大模型,这套方法生成的视频在时长上分别比 Sora 长 18% 和比 Kling 长 47% ,同时在画面精细度与视觉保真度上与两者保持相当。 尽管搜索机制带来了极其优异的画面连贯性,但在推理阶段引入多树搜索也带来了高昂的算力开销。研究人员坦言,当前的 Planning at Inference 框架在生成速度上明显慢于传统的自回归直接生成,这在一定程度上限制了实时部署的可能。然而,随着底层视频生成底座的效率演进与计算硬件算力的不断增长,以计算成本换取画面质量的推理时缩放路线,有望在大模型基础能力突破特定门槛后,成为长视频生成走向工程实用的关键技术路径。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。