RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU

基本信息

属性 内容
标题 RAGDoll: Efficient Offloading-based Online RAG System on a Single GPU
作者 Weiping Yu, Ningyi Liao, Siqiang Luo, Junfeng Liu
机构 Nanyang Technological University
来源 2025 arXiv: 2504.15302v1
总结 针对单张消费级 GPU 的资源受限场景,通过解耦检索与生成流水线、分层内存联合调度及自适应批处理,实现高效的 RAG 在线服务。

摘要

检索增强生成(RAG)通过引入相关外部知识提高了大语言模型(LLM)的生成质量。然而,由于内存有限以及模型和知识库规模的不断增加,在消费级平台上部署 RAG 极具挑战性。本文介绍了 RAGDOLL,这是一个专为资源受限平台设计的资源高效型、自适应 RAG 服务系统。RAGDOLL 基于一个核心洞察:RAG 的检索和 LLM 生成阶段具有不同的计算和内存需求,传统的串行工作流会导致大量的空闲时间和资源利用率低下。基于此,RAGDOLL 将检索和生成解耦为 并行流水线(parallel pipelines),并结合 联合内存放置(joint memory placement)动态批处理调度(dynamic batch scheduling) 策略,以优化跨不同硬件设备和工作负载的资源使用。大量实验表明,RAGDOLL 能有效适应各种硬件配置和 LLM 规模,与基于 vLLM 的串行 RAG 系统相比,平均延迟实现了高达3.6 倍的加速。

Read more
Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks

Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks

基本信息

属性 内容
标题 Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks
作者 Yunfan Gao, Yun Xiong, Meng Wang, Haofen Wang
来源 2024 arXiv:2407.21059v
总结 提出模块化 RAG 框架,将 RAG 系统拆解为独立的模块和算子,并总结了线性、条件、分支和循环等 RAG 流模式

摘要

检索增强生成 显著提升了大型语言模型处理知识密集型任务的能力。随着应用场景需求的增加,RAG 系统整合了更高级的检索器、LLM 及其他辅助技术,导致系统复杂性急剧上升。然而,快速的技术进步使得传统的“检索-生成”范式难以统一现有的各种方法。 在此背景下,本文指出了现有 RAG 范式的局限性,并引入了 Modular RAG(模块化 RAG) 框架。通过将复杂的 RAG 系统分解为独立的 Modules(模块) 和专门的 Operators(算子),该框架实现了高度的可重构性。Modular RAG 超越了传统的线性架构,融合了 Routing(路由)Scheduling(调度) 和 Fusion(融合) 等高级机制。基于广泛的研究,本文进一步识别了 Linear(线性)Conditional(条件)Branching(分支) 和 Looping(循环) 四种普遍的 RAG 模式,并对其实现细节进行了全面分析。最后,文章探讨了新算子和范式的潜在发展,为 RAG 技术的持续演进和实际部署奠定了坚实的理论和实践基础。

Read more
Patchwork: A Unified Framework for RAG Serving

Patchwork: A Unified Framework for RAG Serving

基本信息

属性 内容
标题 PATCHWORK: A Unified Framework for RAG Serving
作者 Bodun Hu, Saurabh Agarwal, Luis Pabon, Aditya Akella
机构 UT Austin
来源 arXiv 2025
总结 通过模块化的 Python 规范接口、基于最大流的离线资源分配优化以及在线 SLO 违规缓解机制,提升了 RAG 系统的吞吐量并降低了SLO违规

摘要

检索增强生成(RAG)已成为一种通过与外部知识源集成来增强大型语言模型(LLM)可靠性的新范式。然而,由于这些系统的计算管道本质上由 LLM、数据库和专用处理组件等异构部分组成,其高效部署面临着重大的技术挑战。我们介绍了 PATCHWORK,这是一个全面的端到端 RAG 服务框架,旨在解决这些效率瓶颈。PATCHWORK 的架构提供了三个关键创新:首先,它提供了一个灵活的规范接口,使用户能够实现自定义的 RAG 管道。其次,它将这些管道部署为分布式推理系统,同时针对单个 RAG 组件的独特可扩展性特征进行优化。第三,PATCHWORK 包含一个在线调度机制,该机制持续监控请求负载和执行进度,通过战略性请求优先级排序和资源自动缩放来动态最小化服务等级目标(SLO)违规。我们对四种不同的 RAG 实现进行的实验评估表明,PATCHWORK 提供了比商业替代方案显著的性能提升,实现了超过 48% 的吞吐量增益,同时减少了约 24% 的 SLO 违规。

Read more
HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows

HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows

基本信息

属性 内容
标题 HedraRAG: Co-Optimizing Generation and Retrieval for Heterogeneous RAG Workflows
作者 Zhengding Hu, Vibha Murthy, Zaifeng Pan, Wanlu Li, Xiaoyi Fang, Yufei Ding, Yuke Wang
会议 SOSP 2025 (ACM Symposium on Operating Systems Principles)
总结 从跨阶段、请求内和请求间三个角度解决异构RAG的计算效率问题

摘要

在本文中,我们识别并解决了服务异构 RAG 工作流时出现的系统级挑战,这些工作流以复杂的阶段和多样的请求模式为特征 。我们提出了 HedraRAG,这是一个基于 RAGraph 构建的新系统,RAGraph 是一种基于图的抽象,它揭示了跨阶段并行性、请求内相似性和请求间偏斜性(skewness)的优化机会 。这些机会通过图变换来表达,包括节点拆分、重排序、边添加和重连 。这些变换被动态地应用于跨并发请求的子图波前(wavefronts),并被调度到 CPU-GPU 流水线上 。在广泛工作流上的实验表明,HedraRAG 相比现有框架实现了超过 1.5 倍、最高达 5 倍的加速,为异构 RAG 工作负载服务提供了全面的解决方案 。

Read more