VISTA: A Test-Time Self-Improving Video Generation Agent

VISTA: A Test-Time Self-Improving Video Generation Agent

基本信息

属性 内容
标题 VISTA: A Test-Time Self-Improving Video Generation Agent
作者 Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
机构 Google, National University of Singapore
会议 2025 arXiv: 2510.15831v1
总结 通过多智能体协作在测试时通过“生成-评估-批判-重写”的迭代循环自主优化提示词,从而提升视频生成质量

摘要

尽管文本到视频(T2V)合成技术进展迅速,但生成的视频质量仍然严重依赖于用户提示词的精确度。现有的测试时优化(Test-time optimization)方法虽然在其他领域取得了成功,但在面对视频生成的多面性(Multi-faceted nature)时却显得力不从心。

为了解决这一问题,本文推出了 VISTA,这是一个新颖的多智能体系统,能够在测试时通过迭代循环自主改进视频生成质量。VISTA 的工作流程如下:首先将用户的想法分解为结构化的时间计划;在生成后,通过稳健的成对锦标赛(Pairwise tournament)机制识别出最佳视频;接着,这个获胜的视频会被三个专注于视觉、音频和上下文保真度的专门智能体进行批判;最后,推理智能体综合这些反馈,自省地重写并增强提示词,用于下一轮生成。在单场景和多场景视频生成的实验中,VISTA 始终能提升视频质量以及与用户意图的对齐度,在与最先进基线的对抗中实现了高达 60% 的胜率。人类评估者也表示赞同,在 66.4% 的比较中更偏向 VISTA 的输出。

Read more
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

基本信息

属性 内容
标题 StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
作者 Panwen Hu, Jin Jiang, Jianqi Chen, Mingfei Han, Shengcai Liao, Xiaojun Chang, Xiaodan Liang
机构 Mohamed bin Zayed University of Artificial Intelligence
来源 2024 arXiv: 2411.04925v
总结 通过多智能体协作框架及定制化生成技术实现高一致性的定制化故事视频生成

摘要

人工智能生成内容(AIGC)的出现推动了自动视频生成的研究,旨在简化传统制作流程。然而,自动化故事视频制作,特别是针对定制化叙事,由于在镜头之间保持主体一致性的复杂性,仍然具有挑战性。现有的方法(如 Mora 和 AesopAgent)虽然集成了多个智能体进行故事到视频(S2V)的生成,但在保持主角一致性和支持定制化故事视频生成(CSVG)方面存在不足。 为了解决这些限制,本文提出了 StoryAgent,这是一个专为 CSVG 设计的多智能体框架。StoryAgent 将 CSVG 分解为分配给专门智能体的不同子任务,模拟专业的制作流程。值得注意的是,该框架包括负责故事设计、分镜生成、视频创作、智能体协调和结果评估的智能体。利用不同模型的优势,StoryAgent 增强了对生成过程的控制,显著提高了一致性。具体而言,我们引入了一种定制的图像到视频(I2V)方法 LoRA-BE,以增强镜头内的时序一致性,同时提出了一种新颖的分镜生成流水线,以保持镜头间的主体一致性。广泛的实验表明,该方法在合成高度一致的故事视频方面有效,优于现有的最先进方法。

Read more
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

基本信息

属性 内容
标题 UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
作者 Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
机构 Singapore Management University, University of Rochester, University College London, NUS, CUHK, Stanford University
来源 2024 arXiv: 2406.04325v
总结 提出了一个开源的全能型多智能体框架 UniVA,利用“规划-执行”双智能体架构和基于 MCP 的工具链,统一了视频理解、生成、编辑等任务,解决复杂长程视频工作流问题。

摘要

虽然专用的 AI 模型在孤立的视频任务(如生成或理解)上表现出色,但现实世界的应用往往需要结合这些能力的复杂迭代工作流。为了弥补这一差距,我们推出了 UniVA,这是一个面向下一代视频通用工具(Video Generalist)的开源、全能多智能体框架,它将视频理解、分割、编辑和生成统一到了连贯的工作流中。 UniVA 采用 “规划-执行”(Plan-and-Act)双智能体架构 来驱动高度自动化和主动的工作流:

规划智能体(Planner Agent):解释用户意图,并将其分解为结构化的视频处理步骤。
执行智能体(Executor Agent):通过模块化的、基于 MCP(Model Context Protocol) 的工具服务器(用于分析、生成、编辑、追踪等)来执行这些步骤。

通过分层多级记忆(Hierarchical Multi-level Memory)——包含全球知识、任务上下文和用户特定偏好——UniVA 维持了长程推理能力、上下文连续性以及用户个性化。

为了全面评估 UniVA,我们提出了 UniBench,这是一个包含 745 个复杂多步骤查询的基准测试,涵盖生成、理解、编辑及其组合任务。实验表明,UniVA 在处理复杂视频任务方面显著优于现有的专有模型(如 Claude 3.5 Sonnet 和 GPT-4o),确立了其作为视频领域多功能且强大的开源助手的地位。

Read more