RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

基本信息

属性 内容
标题 RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU
作者 Weiping Yu, Ningyi Liao, Siqiang Luo, Junfeng Liu
机构 Nanyang Technological University
来源 2025 arXiv: 2504.15302v1
总结 针对单张消费级 GPU 的资源受限场景,通过解耦检索与生成流水线、分层内存联合调度及自适应批处理,实现高效的 RAG 在线服务。

摘要

检索增强生成(RAG)通过引入相关外部知识提高了大语言模型(LLM)的生成质量。然而,由于内存有限以及模型和知识库规模的不断增加,在消费级平台上部署 RAG 极具挑战性。本文介绍了 RAGDOLL,这是一个专为资源受限平台设计的资源高效型、自适应 RAG 服务系统。RAGDOLL 基于一个核心洞察:RAG 的检索和 LLM 生成阶段具有不同的计算和内存需求,传统的串行工作流会导致大量的空闲时间和资源利用率低下。基于此,RAGDOLL 将检索和生成解耦为 并行流水线(parallel pipelines),并结合 联合内存放置(joint memory placement)动态批处理调度(dynamic batch scheduling) 策略,以优化跨不同硬件设备和工作负载的资源使用。大量实验表明,RAGDOLL 能有效适应各种硬件配置和 LLM 规模,与基于 vLLM 的串行 RAG 系统相比,平均延迟实现了高达3.6 倍的加速。

Read more
Patchwork: A Unified Framework for RAG Serving

Patchwork: A Unified Framework for RAG Serving

基本信息

属性 内容
标题 PATCHWORK: A Unified Framework for RAG Serving
作者 Bodun Hu, Saurabh Agarwal, Luis Pabon, Aditya Akella
机构 UT Austin
来源 arXiv 2025
总结 通过模块化的 Python 规范接口、基于最大流的离线资源分配优化以及在线 SLO 违规缓解机制,提升了 RAG 系统的吞吐量并降低了SLO违规

摘要

检索增强生成(RAG)已成为一种通过与外部知识源集成来增强大型语言模型(LLM)可靠性的新范式。然而,由于这些系统的计算管道本质上由 LLM、数据库和专用处理组件等异构部分组成,其高效部署面临着重大的技术挑战。我们介绍了 PATCHWORK,这是一个全面的端到端 RAG 服务框架,旨在解决这些效率瓶颈。PATCHWORK 的架构提供了三个关键创新:首先,它提供了一个灵活的规范接口,使用户能够实现自定义的 RAG 管道。其次,它将这些管道部署为分布式推理系统,同时针对单个 RAG 组件的独特可扩展性特征进行优化。第三,PATCHWORK 包含一个在线调度机制,该机制持续监控请求负载和执行进度,通过战略性请求优先级排序和资源自动缩放来动态最小化服务等级目标(SLO)违规。我们对四种不同的 RAG 实现进行的实验评估表明,PATCHWORK 提供了比商业替代方案显著的性能提升,实现了超过 48% 的吞吐量增益,同时减少了约 24% 的 SLO 违规。

Read more
Towards End-to-End Optimization of LLM-based Applications with Ayo

Towards End-to-End Optimization of LLM-based Applications with Ayo

基本信息

属性 内容
标题 Towards End-to-End Optimization of LLM-based Applications with Ayo
作者 Xin Tan, Yinmin Jiang, Yitao Yang, Hong Xu
机构 The Chinese University of Hong Kong
会议 ASPLOS 2025 (ACM International Conference on Architectural Support for Programming Languages and Operating Systems)
总结 用"原语拆分并优化以生成运行图"以及“上下层联合的运行时调度”实现LLM 应用工作流的端到端加速

摘要

基于大语言模型(LLM)的应用由 LLM 组件和非 LLM 组件共同组成,每一部分都会增加端到端的延迟。尽管在优化 LLM 推理方面已经做出了巨大努力,但端到端的工作流优化却一直被忽视。现有的框架采用基于任务模块的粗粒度编排,这种方式将优化限制在每个模块内部,导致了次优的调度决策。

我们提出了一种细粒度的端到端编排方法,它利用 任务原语(task primitives) 作为基本单元,并将每个查询的工作流表示为一个原语级的数据流图。这种方法显式地暴露了更大的设计空间,使得跨越不同模块原语的并行化和流水线优化成为可能,并增强了调度能力以提升应用级的性能。我们构建了 Ayo,这是一个实现了该方案的新型 LLM 应用编排框架。全面的实验表明,在各种流行的 LLM 应用中,Ayo 相比现有系统能够实现高达 2.09 倍的加速比。

Read more