- YRCloudFile 软件
- 高性能分布式文件存储 YRCloudFile
- 焱融 DataInsight
存储挑战
大规模数据存储压力
AI 大模型迈向万亿级参数规模,多模态发展加速,数据量呈现爆发式增长。训练和推理都需海量数据与超大规模参数存储。同时,多模态数据的格式和结构更复杂,加剧存储负担。
多模态数据洪流加剧传输难题
图像、语音、视频等多模态数据混合处理,对传输带宽、延迟和吞吐量提出更高要求。一是数据量激增致使网络带宽承压,传输速度受限;二是多模态异构数据增加传输复杂度,需进行语义对齐确保信息准确传达。
读写低效制约模型迭代效率
模型训练涉及海量数据集读取与频繁 Checkpoint 写入。存储 I/O 性能不足数据加载慢会导致 GPU 空转;而存储带宽受限会导致 Checkpoint 读取延迟,进而增加训练中断和恢复时间,影响训练效率。
元数据风暴拖累海量小文件处理
AI 训练和推理过程中会生成并访问大量小文件,如模型参数、日志等,这会导致元数据操作极为频繁。元数据查询与检索延迟会影响数据加载和任务调度效率。
存算资源错配引发系统性损耗
智算中心存储集群读写速度和并发处理能力若跟不上高算力需求,模型训练会因数据等待造成 GPU 利用率不足,浪费算力和电力资源,严重削弱投入产出比。
数据治理缺失推高成本
业务发展使跨数据中心、云边协同的数据流动需求增加,但跨域数据复制流程复杂。此外,AI 训练数据具有阶段性热点访问特征,缺乏智能调度会导致冷数据长期占用高性能存储资源,推高存储成本。
解决方案
焱融科技面向国产化智算中心的需求,推出了基于 F9000X 全闪存储一体机的高速数据处理解决方案,以实现超高性能和可扩展性。该方案采用了先进的高性能分布式并行文件系统 YRCloudFile,优化了 NVMe SSD 以及高速无损网络的数据访问和效率,不仅确保了对大文件的高带宽传输,同时还优化了对海量小文件的处理能力。该解决方案以高带宽、高吞吐、低时延和高 IOPS 的卓越存储性能,为智算中心提供了强大的支持,使其能够充分发挥 GPU 算力集群的最大效能。
方案优势
EB 级弹性扩展
稳健支撑智算业务发展采用全分布式架构与独立可扩展的元数据服务,实现业务无感知的横向扩展与容量性能线性增长,保障智算业务持续增长下的服务稳定性与成本可控性。
独有 DataLoad 功能
打通数据流动鸿沟焱融 DataLoad 功能支持直接通过文件接口访问对象存储中的数据,实现了对象存储与文件系统的无缝对接,满足混合云存储业务架构部署要求,实现灵活、按需的数据互通和流转。
分布式元数据架构
轻松驾驭千亿级文件存储通过扩展元数据节点实现元数据的分布存储和负载均衡,提供千万级 IOPS 和高吞吐能力,支持千亿级文件数量。同时,结合高效元数据管理技术,减少跨网络和磁盘访问开销,海量小文件处理性能无衰减。
冷热数据智能分层
有效降低智算建设 TCO用户可根据策略自定义冷热数据层,冷数据自动流动至本地或公有云对象存储中,向上仍然为业务提供标准的文件访问接口。在保证热层数据高访问性能的同时,降低数据存储的整体成本。
全栈技术架构适配
赋能多场景智能计算支持 x86、ARM、虚拟机等多种架构环境部署,结合智能数据加载等功能实现混合云环境下的高效存储与调度。上层可支持 AI 训推、金融量化、自动驾驶、科研教育、智能办公等多种场景。
全面支持国产化生态
深度适配海光、鲲鹏、飞腾等主流硬件平台及银河麒麟、统信、欧拉等国产操作系统,助力用户打造安全可控的高性能存储基础设施。