VideoAgent: Self-Improving Video Generation for Embodied Planning

VideoAgent: Self-Improving Video Generation for Embodied Planning

基本信息

属性 内容
标题 VideoAgent: Self-Improving Video Generation for Embodied Planning
作者 Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang
机构 University of Waterloo, IIT Kharagpur, Stanford University, Georgia Tech, Google DeepMind, NYU
来源 2025 arXiv: 2410.10076v3
总结 提出通过“自我调节一致性”机制,结合 VLM 反馈与在线环境交互,迭代优化视频生成策略以用于机器人规划

摘要

视频生成已被用于生成控制机器人系统的视觉计划(Visual Plans)。通常的做法是给定图像观测和语言指令,生成视频计划,然后将其转换为机器人控制指令并执行。然而,利用视频生成进行控制的一个主要瓶颈在于生成视频的质量,这些视频往往存在内容幻觉(Hallucinatory content)和不切实际的物理现象,导致从中提取控制动作时任务成功率低下。 虽然扩大数据集和模型规模是一个部分解决方案,但整合外部反馈对于将视频生成落地到物理世界既自然又至关重要。基于这一观察,我们提出了 VideoAgent,用于基于外部反馈自我改进生成的视频计划。VideoAgent 并不直接执行生成的视频计划,而是首先利用一种称为 自我调节一致性(Self-Conditioning Consistency) 的新颖程序来优化生成的视频计划,从而将推理时的计算量(Inference-time compute)转化为更好的生成质量。随着优化后的视频计划被执行,VideoAgent 还能从环境中收集额外数据,以进一步改进视频生成。在 MetaWorld 和 iTHOR 的模拟机器人操作实验中,VideoAgent 大幅减少了幻觉,从而提高了下游操作任务的成功率。我们进一步展示了 VideoAgent 可以有效优化真实机器人的视频,提供了机器人可以作为将视频生成落地物理世界的有效工具的早期证据。

Read more
VISTA: A Test-Time Self-Improving Video Generation Agent

VISTA: A Test-Time Self-Improving Video Generation Agent

基本信息

属性 内容
标题 VISTA: A Test-Time Self-Improving Video Generation Agent
作者 Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
机构 Google, National University of Singapore
会议 2025 arXiv: 2510.15831v1
总结 通过多智能体协作在测试时通过“生成-评估-批判-重写”的迭代循环自主优化提示词,从而提升视频生成质量

摘要

尽管文本到视频(T2V)合成技术进展迅速,但生成的视频质量仍然严重依赖于用户提示词的精确度。现有的测试时优化(Test-time optimization)方法虽然在其他领域取得了成功,但在面对视频生成的多面性(Multi-faceted nature)时却显得力不从心。

为了解决这一问题,本文推出了 VISTA,这是一个新颖的多智能体系统,能够在测试时通过迭代循环自主改进视频生成质量。VISTA 的工作流程如下:首先将用户的想法分解为结构化的时间计划;在生成后,通过稳健的成对锦标赛(Pairwise tournament)机制识别出最佳视频;接着,这个获胜的视频会被三个专注于视觉、音频和上下文保真度的专门智能体进行批判;最后,推理智能体综合这些反馈,自省地重写并增强提示词,用于下一轮生成。在单场景和多场景视频生成的实验中,VISTA 始终能提升视频质量以及与用户意图的对齐度,在与最先进基线的对抗中实现了高达 60% 的胜率。人类评估者也表示赞同,在 66.4% 的比较中更偏向 VISTA 的输出。

Read more
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

基本信息

属性 内容
标题 StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
作者 Panwen Hu, Jin Jiang, Jianqi Chen, Mingfei Han, Shengcai Liao, Xiaojun Chang, Xiaodan Liang
机构 Mohamed bin Zayed University of Artificial Intelligence
来源 2024 arXiv: 2411.04925v
总结 通过多智能体协作框架及定制化生成技术实现高一致性的定制化故事视频生成

摘要

人工智能生成内容(AIGC)的出现推动了自动视频生成的研究,旨在简化传统制作流程。然而,自动化故事视频制作,特别是针对定制化叙事,由于在镜头之间保持主体一致性的复杂性,仍然具有挑战性。现有的方法(如 Mora 和 AesopAgent)虽然集成了多个智能体进行故事到视频(S2V)的生成,但在保持主角一致性和支持定制化故事视频生成(CSVG)方面存在不足。 为了解决这些限制,本文提出了 StoryAgent,这是一个专为 CSVG 设计的多智能体框架。StoryAgent 将 CSVG 分解为分配给专门智能体的不同子任务,模拟专业的制作流程。值得注意的是,该框架包括负责故事设计、分镜生成、视频创作、智能体协调和结果评估的智能体。利用不同模型的优势,StoryAgent 增强了对生成过程的控制,显著提高了一致性。具体而言,我们引入了一种定制的图像到视频(I2V)方法 LoRA-BE,以增强镜头内的时序一致性,同时提出了一种新颖的分镜生成流水线,以保持镜头间的主体一致性。广泛的实验表明,该方法在合成高度一致的故事视频方面有效,优于现有的最先进方法。

Read more