- YRCloudFile 软件
- 高性能分布式文件存储 YRCloudFile
- 焱融 DataInsight
存储挑战
GPU 显存瓶颈突出
在大模型推理中,KVCache 规模快速扩大,致使 GPU 显存占用率急剧攀升。然而,显存容量有限,一旦不足,推理将出现卡顿甚至中断。通常情况下,GPU 显存无法单独扩展,只能通过增加整卡来获取更多显存资源,这将导致成本显著上升并造成资源浪费。
高并发处理能力不足
在推理请求高峰时段,数据处理需求急剧增加。传统架构难以高效应对海量并发请求,导致推理任务积压,响应延迟上升、吞吐能力下降,影响整体效率,限制服务的可扩展性与用户体验。
存储性能瓶颈
模型推理过程需频繁访问大体量参数文件与中间计算结果,尤其在生产环境中,海量实时数据需迅速注入模型完成计算。若底层存储系统吞吐不足、I/O 延迟较高,将直接影响模型加载与数据读写效率,成为限制推理速度的核心瓶颈。
解决方案
焱融高性能分布式文件存储 YRCloudFile 率先支持 KVCache 特性。通过“GPU 显存 + YRCloudFile 高性能分布式文件存储”的组合方式,YRCloudFile KVCache 将 KV 缓存从 GPU 显存扩展至高性能共享存储,用户无需修改应用架构,即可实现 GPU 对 KVCache 空间的共享访问。该方案不仅突破了 GPU 显存瓶颈,显著扩展了可承载的 KV 键值对规模,还大幅提高了 KV 命中率,同时有效降低首 token 耗时(TTFT),满足更高并发、更长上下文的推理需求,全面提升大模型推理的效率与响应能力。
焱融存储技术团队基于公开数据集和业界公认的测试工具,在 NVIDIA GPU 硬件平台模拟真实推理业务,对 YRCloudFile KVCache 进行了性能验证。理想情况下,TTFT 应稳定在 2 秒以内,这表明用户体验良好。一旦 TTFT 超过 2 秒,用户体验将显著下降。实测结果表明,YRCloudFile KVCache 在响应延迟与并发处理能力这两个衡量用户体验的关键指标上均实现了明显优化。在 TTFT 稳定控制在 2 秒以内的前提下,支持的并发数相比原生 vLLM 方案提高了 3.2 倍。
方案优势
领先的技术架构
焱融 YRCloudFile KVCache 方案构建了与 DeepSeek 一致的推理存算架构,率先实现 DeepSeek 级推理能力,为用户提供对标行业一线的高性能推理体验。
加速 AI 推理
提升用户体验通过高速读写和低延迟访问能力,有效缓解显存瓶颈,加快 KVCache 的加载与处理速度,大幅提升推理过程中的响应效率,显著缩短模型输出时间,优化整体用户使用体验。
支持更高并发
稳定支撑大规模服务可承载大规模 KV 读写并发访问,保障推理任务在高并发场景下依然保持低延迟与高吞吐,有效支撑复杂业务调度需求,提升系统稳定性。
提升 GPU 利用率
优化推理成本通过将 KV 缓存外置至高性能存储系统,既避免了堆叠 GPU 扩展显存的高昂成本,又释放了 GPU 显存资源,使计算资源得到充分利用,同等数量的 GPU 能支持更多并发和更长上下文的推理请求,实现更具性价比的 AI 推理。