MiMo-V2.5-Pro发布万亿参数模型UltraSpeed 突破1000 Tokens/S

2026-06-11 03:53:32

来源：快搜原创

文档

MDMS

1198 字

▶目录

行业里程碑：万亿参数模型推理速度突破 1000 tokens/s

2026 年 6 月 8 日晚，小米 MiMo 技术团队正式发布 MiMo-V2.5-Pro 的 UltraSpeed 模式，这是全球首个在通用 GPU 节点上实现推理速度突破 1000 tokens/s 的万亿参数模型。该成绩由小米 MiMo 团队与 AI 编译优化系统组 TileRT 联合完成，刷新了旗舰大模型的实时推理速度纪录。

技术协同：模型与系统联合设计

UltraSpeed 模式的核心突破并非单一算法优化，而是通过模型与推理系统的全链路协同设计（Codesign）实现。传统认知中，万亿参数模型、通用 GPU、极高推理速度三者难以兼得，而 MiMo 团队从模型架构、算子优化到编译调度进行了系统性重构。具体关键技术包括：

针对混合专家（MoE）模型的稀疏激活特性，定制显存与计算调度策略；
利用 TileRT 编译器对计算图进行深度融合与内存复用；
在单台标准 8 卡通用 GPU 节点上实现全量部署，无需专用硬件。

实测性能：峰值接近 1200 tokens/s，单节点部署

根据官方数据，MiMo-V2.5-Pro-UltraSpeed 模式在推理测试中持续生成速度稳定超过 1000 tokens/s，峰值可接近 1200 tokens/s。该性能基于单台标准 8 卡 GPU 服务器，无需跨节点通信，这使得部署成本与门槛大幅降低，企业级应用可快速落地。

商业模式：UltraSpeed API 限时开放与定价策略

MiMo-V2.5-Pro-UltraSpeed API 同步上线，采用限时体验价策略。定价为原 MiMo-V2.5-Pro 标准版的 3 倍，但输出速度提升约 10 倍。对于需要高吞吐、低延迟的实时推理场景（如智能助手、实时翻译、代码生成），这一性价比具有显著吸引力。限时开放模式也便于收集用户反馈，为后续迭代提供数据支撑。

行业影响与适用场景

万亿参数模型长期以来受限于推理速度，多用于离线批处理。UltraSpeed 模式的推出，首次将大模型的高智力水平与近乎实时的响应能力结合。适用场景包括：

高频交互的 AI 客服与智能助手
实时文档分析与内容生成
大规模并行代码补全与审查

同时，该成果验证了 MoE 架构在通用硬件上的加速潜力，可能推动更多大模型厂商关注系统级协同优化而非单纯堆算力。

总结与展望

MiMo-V2.5-Pro-UltraSpeed 通过模型与系统协同设计，在通用 GPU 上实现了万亿参数模型的千级 tokens/s 推理速度，标志着大模型从“能做”向“快用”迈出关键一步。未来，随着编译优化与稀疏计算技术的成熟，实时推理成本有望进一步降低，助力大模型在更多业务场景中落地。

平台声明：该文观点仅代表作者本人，快搜系信息发布平台，本平台仅提供信息存储空间服务。
作者声明：本文系 MDMS 原创，未经许可，谢绝转载。

MiMo-V2.5-Pro发布万亿参数模型UltraSpeed 突破1000 Tokens/S

行业里程碑：万亿参数模型推理速度突破 1000 tokens/s

技术协同：模型与系统联合设计

实测性能：峰值接近 1200 tokens/s，单节点部署

商业模式：UltraSpeed API 限时开放与定价策略

行业影响与适用场景

总结与展望

热门话题

最新话题

MiMo-V2.5-Pro发布万亿参数模型UltraSpeed 突破1000 Tokens/S

行业里程碑：万亿参数模型推理速度突破 1000 tokens/s

技术协同：模型与系统联合设计

实测性能：峰值接近 1200 tokens/s，单节点部署

商业模式：UltraSpeed API 限时开放与定价策略

行业影响与适用场景

总结与展望

最新文档

热门文档

热门话题

最新话题