VISTA: A Test-Time Self-Improving Video Generation Agent

VISTA: A Test-Time Self-Improving Video Generation Agent

基本信息

属性 内容
标题 VISTA: A Test-Time Self-Improving Video Generation Agent
作者 Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
机构 Google, National University of Singapore
会议 2025 arXiv: 2510.15831v1
总结 通过多智能体协作在测试时通过“生成-评估-批判-重写”的迭代循环自主优化提示词,从而提升视频生成质量

摘要

尽管文本到视频(T2V)合成技术进展迅速,但生成的视频质量仍然严重依赖于用户提示词的精确度。现有的测试时优化(Test-time optimization)方法虽然在其他领域取得了成功,但在面对视频生成的多面性(Multi-faceted nature)时却显得力不从心。

为了解决这一问题,本文推出了 VISTA,这是一个新颖的多智能体系统,能够在测试时通过迭代循环自主改进视频生成质量。VISTA 的工作流程如下:首先将用户的想法分解为结构化的时间计划;在生成后,通过稳健的成对锦标赛(Pairwise tournament)机制识别出最佳视频;接着,这个获胜的视频会被三个专注于视觉、音频和上下文保真度的专门智能体进行批判;最后,推理智能体综合这些反馈,自省地重写并增强提示词,用于下一轮生成。在单场景和多场景视频生成的实验中,VISTA 始终能提升视频质量以及与用户意图的对齐度,在与最先进基线的对抗中实现了高达 60% 的胜率。人类评估者也表示赞同,在 66.4% 的比较中更偏向 VISTA 的输出。


内容

1 引言 & 背景 & 相关工作

尽管文本到视频(Text-to-Video, T2V)模型(如 Sora, Veo, Kling)取得了显著进展,但生成高质量视频仍然极度依赖于提示工程(Prompt Engineering)。用户往往需要经过多次试错,才能找到生成理想视频的“魔法咒语”。

1.1 现有挑战

现有的优化方法主要集中在训练阶段(如 RLHF),或者是针对大语言模型(LLM)的测试时优化(Test-Time Optimization, 如 ReFT, DSPy)。然而,直接将这些方法迁移到视频生成领域面临三大难题:

  1. 评估困难:视频包含视觉、音频、时间连贯性等多个维度,很难用单一的奖励模型(Reward Model)给出准确的绝对评分。
  2. 多模态复杂性:视频生成不仅涉及画面质量,还涉及动作流畅度、物理规律、光影一致性以及音画同步。
  3. 反馈稀疏:简单的“好/坏”反馈不足以指导模型修正复杂的视觉错误(如“手部畸形”或“物体瞬移”)。

1.2 VISTA 的核心思路

本文提出了 VISTA(Video Self-improving Test-time Agent),这是一个多智能体系统。

作者的核心假设是:与其训练一个完美的生成模型,不如构建一个能够“自我反思”和“自我修正”的智能体系统,在推理阶段(Test-Time)通过迭代优化提示词来提升生成质量。

这类似于人类导演的工作流程:构思脚本 -> 拍摄样片 -> 审片挑刺 -> 修改指令 -> 重拍

2 VISTA 框架详解

VISTA 采用了一个闭环的迭代优化过程,由五个核心组件(智能体)协同工作。

2.1 规划与分解

  • 输入:用户的原始简短提示(User Intent)。
  • 动作Planner Agent 将其分解为结构化的时间计划(Temporal Plan)
  • 目的:对于长视频或复杂场景,单一的文本提示往往会导致模型遗忘后续指令。结构化计划明确了每个时间段(Timestamp)的:
    1. 场景描述(视觉环境、角色)。
    2. 动作指令(发生了什么)。
    3. 运镜方式(Camera movement)。
    4. 音频提示(背景音、对白)。

2.2 生成与锦标赛选择

  • 生成:基于当前的提示词,调用基础 T2V 模型(如 Veo, Imagen Video)生成 $K$ 个候选视频。
  • 评估难题:直接给视频打分(1-10分)非常不稳定,VLM(视觉大语言模型)往往难以给出一致的绝对分数。
  • 解决方案:采用**成对锦标赛(Pairwise Tournament)**机制。
    • 让 VLM(作为裁判)同时观看两个视频(Side-by-side),只判断“哪一个更好”。
    • 通过多轮两两PK,选出当前的“最佳视频”(Winning Candidate)。

这种相对评估(Relative Evaluation)比绝对评估要稳健得多,能够有效过滤掉明显的次品。

2.3 多视角批判

选出最佳视频后,系统并不会止步,而是进入“审片”环节。VISTA 部署了三个专门的 Critic Agents,分别关注不同维度:

  1. Visual Critic:关注图像质量、光照、物理合理性、甚至反射细节(如墨镜里的倒影)。
  2. Audio Critic:关注音质、音画同步(Lip-sync)、环境音的沉浸感。
  3. Context Critic:关注上下文一致性,确保视频忠实于用户的原始意图,且多场景之间逻辑连贯。

每个 Critic 都会输出具体的文本反馈(Feedback),指出视频的具体缺陷。

2.4 推理与修正

这是闭环的最后一步,也是 VISTA “智能”的体现。

  • Reasoning Agent 汇总所有 Critic 的反馈。
  • 它进行自省(Introspection):思考“为什么模型会犯这个错误?”以及“如何修改提示词来纠正它?”。
  • 输出:重写后的、增强版的提示词(Refined Prompt),用于下一轮的生成。

3 实验评估

3.1 实验设置

  • 基座模型:Google 的 Veo 和 Imagen 3。
  • 评估基准
    • Direct Prompting (DP):直接使用用户提示。
    • Self-Refine:一种通用的 LLM 自我修正方法。
    • Ada-LE:基于进化的提示优化方法。
  • 任务场景
    1. 单场景生成:侧重细节和物理规律。
    2. 多场景生成:侧重长视频的叙事连贯性和转场。

3.2 实验结果

  1. 胜率分析

    • 在与 Direct Prompting 的对比中,VISTA 取得了 60% 以上的胜率(由人类评估)。
    • 随着迭代轮数(Round)的增加(从 Round 0 到 Round 2),视频质量呈现单调上升趋势。
  2. 不同维度的改进

    • 视觉保真度:VISTA 能够修正模糊的面部、错误的光影。
    • 指令遵循:对于复杂的动作描述(如“从A移动到B”),VISTA 的修正提示能显著提高成功率。

3.3 消融实验

  • Critic 的重要性:如果移除 Multi-View Critique,仅保留单一的一般性反馈,性能下降显著。说明视频生成需要“专才”来挑刺。
  • Tournament 的必要性:如果用绝对评分替代成对PK,选择出的“最佳视频”往往不够好,误导了后续的优化方向。

思考

  • 测试时计算(Test-Time Compute)的胜利:VISTA 证明了,不重新训练庞大的视频生成模型,仅通过消耗更多的推理时间(生成多个样本、多轮迭代、多智能体通信),就能显著提升最终产出的质量。这是一个典型的 “Trade inference time for quality” 的案例。
  • 与 StoryAgent 的对比
    • StoryAgent 侧重于一致性保持(通过重绘、LoRA微调等硬约束),适合固定角色的连续剧。
    • VISTA 侧重于提示词优化(通过自然语言反馈闭环),适合提升单次生成的物理正确性和指令遵循度。
    • 两者结合可能是未来的方向:用 VISTA 的框架来优化 StoryAgent 的分镜描述,再用 StoryAgent 的技术来生成。
  • 局限性:多轮迭代意味着生成一个视频的成本和时间翻倍。如何减少迭代次数是未来优化的关键。

VISTA: A Test-Time Self-Improving Video Generation Agent

http://localhost/2025/12/22/Long2025Vista/

Author

Zero'F_Fa

Posted on

2025-12-22

Updated on

2025-12-22

Licensed under

Comments