
2025 年 6 月 21 日,在华为开发者大会 2025(HDC 2025)期间,华为云存储服务产品部举办了“AI 存储推理解决方案”专题论坛,与领域内资深专家、学者和行业客户共同探讨 AI 存储在推理领域的发展趋势、创新成果和实践经验。
AI 时代的内存型存储
清华大学助理教授章明星指出:更高推理智能带来更大推理负载,显存容量成为制约推理效率提升的关键瓶颈。为突破显存容量限制,利用高速互联网络,构建多级透明的大容量高带宽内存型存储,缓存 KV Cache,以存代算,已成为产业共识。
华为云 AI 存储推理解决方案,构建 AI 云存储新范式
华为云 AI-Native 智算存储产品总监、首席产品官杨生彬表示:“Memory 记忆”已成为 Agentic AI 时代数据应用的新范式,华为云存储推出以“MemoryPooling 内存池”为中心的记忆存储产品组合 M ,打造更高效的智能记忆体:
1) 在日推夜训、业务浪涌场景,高性能弹性文件存储 SFS Turbo 与弹性内存存储 EMS 联动,实现初始记忆(模型)快速加载,缩短推理算力等待时间
2) 在多轮对话、公共前缀场景,弹性内存存储 EMS 基于 CloudMatrix 384 超节点对等池化,实现短期记忆(KV Cache)高效命中,减少推理时延
3) 在企业知识库、多模态挖掘场景,知识湖存储 LMS 支持索引数据共享内存池,实现长期记忆(向量)查询范围扩大百倍,价值数据获取从周级缩短至分钟级。
以存强算,高性能弹性文件存储加速模型加载,提升华为终端算力有效利用率
华为终端业务规模快速增长,已达到几万卡级别集群、上千模型服务规模。在日推夜训、业务浪涌等业务场景中,需要短时间内批量加载模型上万次,模型仓带宽成为瓶颈,批量加载易超时。华为终端项目主管郭宇分享了高性能弹性文件存储 SFS Turbo 和弹性内存存储 EMS 在华为终端 AI 推理平台中的联合创新成果,他表示:“基于 SFS Turbo 三级缓存和 EMS 分布式内存池化技术,突破带宽瓶颈,模型加载时间缩短 80% 以上。”
以存代算,弹性内存存储优化推理缓存,助力无问芯穹一站式 AI 平台推理效益跃升
无问芯穹是国内最具代表性的 AI 基础设施企业之一,降本增效是其持续发展的关键。无问芯穹技术副总裁吴保东表示:“无问芯穹迫切需要提升推理算力利用率和整体吞吐率。弹性内存存储 EMS 通过分布式内存池化技术,打破“内存墙”,助力无问芯穹自研推理引擎优化 KV Cache 缓存,大幅提升缓存命中率,降低平均首 token 时延,节省推理算力资源。”
以存补算,知识湖存储助力华为乾崑智驾提升大模型记忆能力,通向更高阶智驾
大模型记忆增强是解决智能驾驶长尾问题、通往高阶自驾能力的基础。华为乾崑智驾架构师刘雨晨提出,随着自动驾驶快速发展,向量数据从十亿扩张到百亿级,支撑如此大规模的向量数据存储,并满足亚秒级的数据查询速度要求,是当前面临的一个巨大挑战。刘雨晨表示:“知识湖存储 LMS 以存补算,支持百亿级向量规模,Top 10 万查询结果百毫秒级返回,将华为乾崑智驾在复杂场景下的难例数据获取时间从周级缩短至分钟级。”
大模型推理应用快速发展,驱动 AI 存储推理解决方案不断迭代升级。华为云 AI-Native 智算存储将与众多专家、学者和行业客户一起,持续探索前沿创新技术,共同拥抱数智未来!
配资炒股平台提示:文章来自网络,不代表本站观点。