行业里程碑:万亿参数模型推理速度突破 1000 tokens/s
2026 年 6 月 8 日晚,小米 MiMo 技术团队正式发布 MiMo-V2.5-Pro 的 UltraSpeed 模式,这是全球首个在通用 GPU 节点上实现推理速度突破 1000 tokens/s 的万亿参数模型。该成绩由小米 MiMo 团队与 AI 编译优化系统组 TileRT 联合完成,刷新了旗舰大模型的实时推理速度纪录。
技术协同:模型与系统联合设计
UltraSpeed 模式的核心突破并非单一算法优化,而是通过模型与推理系统的全链路协同设计(Codesign)实现。传统认知中,万亿参数模型、通用 GPU、极高推理速度三者难以兼得,而 MiMo 团队从模型架构、算子优化到编译调度进行了系统性重构。具体关键技术包括:
- 针对混合专家(MoE)模型的稀疏激活特性,定制显存与计算调度策略;
- 利用 TileRT 编译器对计算图进行深度融合与内存复用;
- 在单台标准 8 卡通用 GPU 节点上实现全量部署,无需专用硬件。
实测性能:峰值接近 1200 tokens/s,单节点部署
根据官方数据,MiMo-V2.5-Pro-UltraSpeed 模式在推理测试中持续生成速度稳定超过 1000 tokens/s,峰值可接近 1200 tokens/s。该性能基于单台标准 8 卡 GPU 服务器,无需跨节点通信,这使得部署成本与门槛大幅降低,企业级应用可快速落地。
商业模式:UltraSpeed API 限时开放与定价策略
MiMo-V2.5-Pro-UltraSpeed API 同步上线,采用限时体验价策略。定价为原 MiMo-V2.5-Pro 标准版的 3 倍,但输出速度提升约 10 倍。对于需要高吞吐、低延迟的实时推理场景(如智能助手、实时翻译、代码生成),这一性价比具有显著吸引力。限时开放模式也便于收集用户反馈,为后续迭代提供数据支撑。
行业影响与适用场景
万亿参数模型长期以来受限于推理速度,多用于离线批处理。UltraSpeed 模式的推出,首次将大模型的高智力水平与近乎实时的响应能力结合。适用场景包括:
- 高频交互的 AI 客服与智能助手
- 实时文档分析与内容生成
- 大规模并行代码补全与审查
同时,该成果验证了 MoE 架构在通用硬件上的加速潜力,可能推动更多大模型厂商关注系统级协同优化而非单纯堆算力。
总结与展望
MiMo-V2.5-Pro-UltraSpeed 通过模型与系统协同设计,在通用 GPU 上实现了万亿参数模型的千级 tokens/s 推理速度,标志着大模型从“能做”向“快用”迈出关键一步。未来,随着编译优化与稀疏计算技术的成熟,实时推理成本有望进一步降低,助力大模型在更多业务场景中落地。