VideoAgent: Self-Improving Video Generation for Embodied Planning

VideoAgent: Self-Improving Video Generation for Embodied Planning

基本信息

属性 内容
标题 VideoAgent: Self-Improving Video Generation for Embodied Planning
作者 Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang
机构 University of Waterloo, IIT Kharagpur, Stanford University, Georgia Tech, Google DeepMind, NYU
来源 2025 arXiv: 2410.10076v3
总结 提出通过“自我调节一致性”机制,结合 VLM 反馈与在线环境交互,迭代优化视频生成策略以用于机器人规划

摘要

视频生成已被用于生成控制机器人系统的视觉计划(Visual Plans)。通常的做法是给定图像观测和语言指令,生成视频计划,然后将其转换为机器人控制指令并执行。然而,利用视频生成进行控制的一个主要瓶颈在于生成视频的质量,这些视频往往存在内容幻觉(Hallucinatory content)和不切实际的物理现象,导致从中提取控制动作时任务成功率低下。 虽然扩大数据集和模型规模是一个部分解决方案,但整合外部反馈对于将视频生成落地到物理世界既自然又至关重要。基于这一观察,我们提出了 VideoAgent,用于基于外部反馈自我改进生成的视频计划。VideoAgent 并不直接执行生成的视频计划,而是首先利用一种称为 自我调节一致性(Self-Conditioning Consistency) 的新颖程序来优化生成的视频计划,从而将推理时的计算量(Inference-time compute)转化为更好的生成质量。随着优化后的视频计划被执行,VideoAgent 还能从环境中收集额外数据,以进一步改进视频生成。在 MetaWorld 和 iTHOR 的模拟机器人操作实验中,VideoAgent 大幅减少了幻觉,从而提高了下游操作任务的成功率。我们进一步展示了 VideoAgent 可以有效优化真实机器人的视频,提供了机器人可以作为将视频生成落地物理世界的有效工具的早期证据。

Read more
VISTA: A Test-Time Self-Improving Video Generation Agent

VISTA: A Test-Time Self-Improving Video Generation Agent

基本信息

属性 内容
标题 VISTA: A Test-Time Self-Improving Video Generation Agent
作者 Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
机构 Google, National University of Singapore
会议 2025 arXiv: 2510.15831v1
总结 通过多智能体协作在测试时通过“生成-评估-批判-重写”的迭代循环自主优化提示词,从而提升视频生成质量

摘要

尽管文本到视频(T2V)合成技术进展迅速,但生成的视频质量仍然严重依赖于用户提示词的精确度。现有的测试时优化(Test-time optimization)方法虽然在其他领域取得了成功,但在面对视频生成的多面性(Multi-faceted nature)时却显得力不从心。

为了解决这一问题,本文推出了 VISTA,这是一个新颖的多智能体系统,能够在测试时通过迭代循环自主改进视频生成质量。VISTA 的工作流程如下:首先将用户的想法分解为结构化的时间计划;在生成后,通过稳健的成对锦标赛(Pairwise tournament)机制识别出最佳视频;接着,这个获胜的视频会被三个专注于视觉、音频和上下文保真度的专门智能体进行批判;最后,推理智能体综合这些反馈,自省地重写并增强提示词,用于下一轮生成。在单场景和多场景视频生成的实验中,VISTA 始终能提升视频质量以及与用户意图的对齐度,在与最先进基线的对抗中实现了高达 60% 的胜率。人类评估者也表示赞同,在 66.4% 的比较中更偏向 VISTA 的输出。

Read more
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

基本信息

属性 内容
标题 StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration
作者 Panwen Hu, Jin Jiang, Jianqi Chen, Mingfei Han, Shengcai Liao, Xiaojun Chang, Xiaodan Liang
机构 Mohamed bin Zayed University of Artificial Intelligence
来源 2024 arXiv: 2411.04925v
总结 通过多智能体协作框架及定制化生成技术实现高一致性的定制化故事视频生成

摘要

人工智能生成内容(AIGC)的出现推动了自动视频生成的研究,旨在简化传统制作流程。然而,自动化故事视频制作,特别是针对定制化叙事,由于在镜头之间保持主体一致性的复杂性,仍然具有挑战性。现有的方法(如 Mora 和 AesopAgent)虽然集成了多个智能体进行故事到视频(S2V)的生成,但在保持主角一致性和支持定制化故事视频生成(CSVG)方面存在不足。 为了解决这些限制,本文提出了 StoryAgent,这是一个专为 CSVG 设计的多智能体框架。StoryAgent 将 CSVG 分解为分配给专门智能体的不同子任务,模拟专业的制作流程。值得注意的是,该框架包括负责故事设计、分镜生成、视频创作、智能体协调和结果评估的智能体。利用不同模型的优势,StoryAgent 增强了对生成过程的控制,显著提高了一致性。具体而言,我们引入了一种定制的图像到视频(I2V)方法 LoRA-BE,以增强镜头内的时序一致性,同时提出了一种新颖的分镜生成流水线,以保持镜头间的主体一致性。广泛的实验表明,该方法在合成高度一致的故事视频方面有效,优于现有的最先进方法。

Read more
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

基本信息

属性 内容
标题 UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
作者 Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
机构 Singapore Management University, University of Rochester, University College London, NUS, CUHK, Stanford University
来源 2024 arXiv: 2406.04325v
总结 提出了一个开源的全能型多智能体框架 UniVA,利用“规划-执行”双智能体架构和基于 MCP 的工具链,统一了视频理解、生成、编辑等任务,解决复杂长程视频工作流问题。

摘要

虽然专用的 AI 模型在孤立的视频任务(如生成或理解)上表现出色,但现实世界的应用往往需要结合这些能力的复杂迭代工作流。为了弥补这一差距,我们推出了 UniVA,这是一个面向下一代视频通用工具(Video Generalist)的开源、全能多智能体框架,它将视频理解、分割、编辑和生成统一到了连贯的工作流中。 UniVA 采用 “规划-执行”(Plan-and-Act)双智能体架构 来驱动高度自动化和主动的工作流:

规划智能体(Planner Agent):解释用户意图,并将其分解为结构化的视频处理步骤。
执行智能体(Executor Agent):通过模块化的、基于 MCP(Model Context Protocol) 的工具服务器(用于分析、生成、编辑、追踪等)来执行这些步骤。

通过分层多级记忆(Hierarchical Multi-level Memory)——包含全球知识、任务上下文和用户特定偏好——UniVA 维持了长程推理能力、上下文连续性以及用户个性化。

为了全面评估 UniVA,我们提出了 UniBench,这是一个包含 745 个复杂多步骤查询的基准测试,涵盖生成、理解、编辑及其组合任务。实验表明,UniVA 在处理复杂视频任务方面显著优于现有的专有模型(如 Claude 3.5 Sonnet 和 GPT-4o),确立了其作为视频领域多功能且强大的开源助手的地位。

Read more
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

基本信息

属性 内容
标题 ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
作者 Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
机构 USTC, CUHK, PKU, Shanghai AI Lab
来源 2024 arXiv: 2406.04325v1
总结 提出“差分滑动窗口”字幕生成策略,构建了包含大规模高质量密集字幕的数据集及高效字幕模型,显著提升了视频理解(LVLM)与生成(T2VM)任务的性能

摘要

本文提出了 ShareGPT4Video 系列工作,旨在通过密集且精确的字幕促进大视频语言模型(LVLMs)的视频理解能力和文本生成视频模型(T2VMs)的视频生成能力。该系列包含三个部分:

1.  ShareGPT4Video 数据集:包含 40K 由 GPT-4V 标注的视频密集字幕,涵盖不同的视频时长和来源,通过精心设计的数据过滤和标注策略开发而成。
2.  ShareCaptioner-Video 模型:一个适用于任意视频的高效且能力强大的字幕生成模型,并利用它标注了 480 万(4.8M)个高质量美学视频。
3.  ShareGPT4Video-8B 模型:一个简单而出色的 LVLM,在三个先进的视频基准测试中达到了 SOTA 性能。

为实现这一目标,除去不可扩展且昂贵的人工标注外,我们发现直接使用 GPT-4V 通过简单的多帧或帧拼接输入策略生成的字幕细节较少,且有时会出现时间上的混淆。我们认为设计高质量视频字幕策略的挑战在于三个方面:

1.  帧间精确的时间变化理解
2.  帧内详细的内容描述
3.  针对任意长度视频的帧数可扩展性

为此,我们精心设计了差分视频字幕策略(Differential Video Captioning Strategy),该策略在为任意分辨率、长宽比和时长的视频生成字幕时,具有稳定、可扩展且高效的特点。基于此策略,我们构建了 ShareGPT4Video,其中包含 40K 涵盖广泛类别的高质量视频,其生成的字幕包含丰富的世界知识、对象属性、摄像机运动,以及至关重要的、对事件的详细且精确的时间描述。基于 ShareGPT4Video,我们进一步开发了 ShareCaptioner-Video,这是一个卓越的字幕生成器,能够高效地为任意视频生成高质量字幕。我们利用它标注了 480 万个美学视频,并在 10 秒文本生成视频任务上验证了其有效性。在视频理解方面,我们在几种当前的 LVLM 架构上验证了 ShareGPT4Video 的有效性,并提出了我们卓越的新模型 ShareGPT4Video-8B。所有的模型、策略和标注都将开源,我们希望该项目能成为推动 LVLMs 和 T2VMs 社区发展的关键资源。

Read more
RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

基本信息

属性 内容
标题 RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU
作者 Weiping Yu, Ningyi Liao, Siqiang Luo, Junfeng Liu
机构 Nanyang Technological University
来源 2025 arXiv: 2504.15302v1
总结 针对单张消费级 GPU 的资源受限场景,通过解耦检索与生成流水线、分层内存联合调度及自适应批处理,实现高效的 RAG 在线服务。

摘要

检索增强生成(RAG)通过引入相关外部知识提高了大语言模型(LLM)的生成质量。然而,由于内存有限以及模型和知识库规模的不断增加,在消费级平台上部署 RAG 极具挑战性。本文介绍了 RAGDOLL,这是一个专为资源受限平台设计的资源高效型、自适应 RAG 服务系统。RAGDOLL 基于一个核心洞察:RAG 的检索和 LLM 生成阶段具有不同的计算和内存需求,传统的串行工作流会导致大量的空闲时间和资源利用率低下。基于此,RAGDOLL 将检索和生成解耦为 并行流水线(parallel pipelines),并结合 联合内存放置(joint memory placement)动态批处理调度(dynamic batch scheduling) 策略,以优化跨不同硬件设备和工作负载的资源使用。大量实验表明,RAGDOLL 能有效适应各种硬件配置和 LLM 规模,与基于 vLLM 的串行 RAG 系统相比,平均延迟实现了高达3.6 倍的加速。

Read more
Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks

Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks

基本信息

属性 内容
标题 Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks
作者 Yunfan Gao, Yun Xiong, Meng Wang, Haofen Wang
来源 2024 arXiv:2407.21059v
总结 提出模块化 RAG 框架,将 RAG 系统拆解为独立的模块和算子,并总结了线性、条件、分支和循环等 RAG 流模式

摘要

检索增强生成 显著提升了大型语言模型处理知识密集型任务的能力。随着应用场景需求的增加,RAG 系统整合了更高级的检索器、LLM 及其他辅助技术,导致系统复杂性急剧上升。然而,快速的技术进步使得传统的“检索-生成”范式难以统一现有的各种方法。 在此背景下,本文指出了现有 RAG 范式的局限性,并引入了 Modular RAG(模块化 RAG) 框架。通过将复杂的 RAG 系统分解为独立的 Modules(模块) 和专门的 Operators(算子),该框架实现了高度的可重构性。Modular RAG 超越了传统的线性架构,融合了 Routing(路由)Scheduling(调度) 和 Fusion(融合) 等高级机制。基于广泛的研究,本文进一步识别了 Linear(线性)Conditional(条件)Branching(分支) 和 Looping(循环) 四种普遍的 RAG 模式,并对其实现细节进行了全面分析。最后,文章探讨了新算子和范式的潜在发展,为 RAG 技术的持续演进和实际部署奠定了坚实的理论和实践基础。

Read more
Patchwork: A Unified Framework for RAG Serving

Patchwork: A Unified Framework for RAG Serving

基本信息

属性 内容
标题 PATCHWORK: A Unified Framework for RAG Serving
作者 Bodun Hu, Saurabh Agarwal, Luis Pabon, Aditya Akella
机构 UT Austin
来源 arXiv 2025
总结 通过模块化的 Python 规范接口、基于最大流的离线资源分配优化以及在线 SLO 违规缓解机制,提升了 RAG 系统的吞吐量并降低了SLO违规

摘要

检索增强生成(RAG)已成为一种通过与外部知识源集成来增强大型语言模型(LLM)可靠性的新范式。然而,由于这些系统的计算管道本质上由 LLM、数据库和专用处理组件等异构部分组成,其高效部署面临着重大的技术挑战。我们介绍了 PATCHWORK,这是一个全面的端到端 RAG 服务框架,旨在解决这些效率瓶颈。PATCHWORK 的架构提供了三个关键创新:首先,它提供了一个灵活的规范接口,使用户能够实现自定义的 RAG 管道。其次,它将这些管道部署为分布式推理系统,同时针对单个 RAG 组件的独特可扩展性特征进行优化。第三,PATCHWORK 包含一个在线调度机制,该机制持续监控请求负载和执行进度,通过战略性请求优先级排序和资源自动缩放来动态最小化服务等级目标(SLO)违规。我们对四种不同的 RAG 实现进行的实验评估表明,PATCHWORK 提供了比商业替代方案显著的性能提升,实现了超过 48% 的吞吐量增益,同时减少了约 24% 的 SLO 违规。

Read more
Towards End-to-End Optimization of LLM-based Applications with Ayo

Towards End-to-End Optimization of LLM-based Applications with Ayo

基本信息

属性 内容
标题 Towards End-to-End Optimization of LLM-based Applications with Ayo
作者 Xin Tan, Yinmin Jiang, Yitao Yang, Hong Xu
机构 The Chinese University of Hong Kong
会议 ASPLOS 2025 (ACM International Conference on Architectural Support for Programming Languages and Operating Systems)
总结 用"原语拆分并优化以生成运行图"以及“上下层联合的运行时调度”实现LLM 应用工作流的端到端加速

摘要

基于大语言模型(LLM)的应用由 LLM 组件和非 LLM 组件共同组成,每一部分都会增加端到端的延迟。尽管在优化 LLM 推理方面已经做出了巨大努力,但端到端的工作流优化却一直被忽视。现有的框架采用基于任务模块的粗粒度编排,这种方式将优化限制在每个模块内部,导致了次优的调度决策。

我们提出了一种细粒度的端到端编排方法,它利用 任务原语(task primitives) 作为基本单元,并将每个查询的工作流表示为一个原语级的数据流图。这种方法显式地暴露了更大的设计空间,使得跨越不同模块原语的并行化和流水线优化成为可能,并增强了调度能力以提升应用级的性能。我们构建了 Ayo,这是一个实现了该方案的新型 LLM 应用编排框架。全面的实验表明,在各种流行的 LLM 应用中,Ayo 相比现有系统能够实现高达 2.09 倍的加速比。

Read more
HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows

HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows

基本信息

属性 内容
标题 HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows
作者 Zhengding Hu, Vibha Murthy, Zaifeng Pan, Wanlu Li, Xiaoyi Fang, Yufei Ding, Yuke Wang
会议 SOSP 2025 (ACM Symposium on Operating Systems Principles)
总结 从跨阶段、请求内和请求间三个角度解决异构RAG的计算效率问题

摘要

在本文中,我们识别并解决了服务异构 RAG 工作流时出现的系统级挑战,这些工作流以复杂的阶段和多样的请求模式为特征 。我们提出了 HedraRAG,这是一个基于 RAGraph 构建的新系统,RAGraph 是一种基于图的抽象,它揭示了跨阶段并行性、请求内相似性和请求间偏斜性(skewness)的优化机会 。这些机会通过图变换来表达,包括节点拆分、重排序、边添加和重连 。这些变换被动态地应用于跨并发请求的子图波前(wavefronts),并被调度到 CPU-GPU 流水线上 。在广泛工作流上的实验表明,HedraRAG 相比现有框架实现了超过 1.5 倍、最高达 5 倍的加速,为异构 RAG 工作负载服务提供了全面的解决方案 。

Read more