MiMo-V2.5-Pro发布万亿参数模型UltraSpeed 突破1000 Tokens/S

目录

    行业里程碑:万亿参数模型推理速度突破 1000 tokens/s

    2026 年 6 月 8 日晚,小米 MiMo 技术团队正式发布 MiMo-V2.5-Pro 的 UltraSpeed 模式,这是全球首个在通用 GPU 节点上实现推理速度突破 1000 tokens/s 的万亿参数模型。该成绩由小米 MiMo 团队与 AI 编译优化系统组 TileRT 联合完成,刷新了旗舰大模型的实时推理速度纪录。

    技术协同:模型与系统联合设计

    UltraSpeed 模式的核心突破并非单一算法优化,而是通过模型与推理系统的全链路协同设计(Codesign)实现。传统认知中,万亿参数模型、通用 GPU、极高推理速度三者难以兼得,而 MiMo 团队从模型架构、算子优化到编译调度进行了系统性重构。具体关键技术包括:

    • 针对混合专家(MoE)模型的稀疏激活特性,定制显存与计算调度策略;
    • 利用 TileRT 编译器对计算图进行深度融合与内存复用;
    • 在单台标准 8 卡通用 GPU 节点上实现全量部署,无需专用硬件。

    实测性能:峰值接近 1200 tokens/s,单节点部署

    根据官方数据,MiMo-V2.5-Pro-UltraSpeed 模式在推理测试中持续生成速度稳定超过 1000 tokens/s,峰值可接近 1200 tokens/s。该性能基于单台标准 8 卡 GPU 服务器,无需跨节点通信,这使得部署成本与门槛大幅降低,企业级应用可快速落地。

    商业模式:UltraSpeed API 限时开放与定价策略

    MiMo-V2.5-Pro-UltraSpeed API 同步上线,采用限时体验价策略。定价为原 MiMo-V2.5-Pro 标准版的 3 倍,但输出速度提升约 10 倍。对于需要高吞吐、低延迟的实时推理场景(如智能助手、实时翻译、代码生成),这一性价比具有显著吸引力。限时开放模式也便于收集用户反馈,为后续迭代提供数据支撑。

    行业影响与适用场景

    万亿参数模型长期以来受限于推理速度,多用于离线批处理。UltraSpeed 模式的推出,首次将大模型的高智力水平与近乎实时的响应能力结合。适用场景包括:

    • 高频交互的 AI 客服与智能助手
    • 实时文档分析与内容生成
    • 大规模并行代码补全与审查

    同时,该成果验证了 MoE 架构在通用硬件上的加速潜力,可能推动更多大模型厂商关注系统级协同优化而非单纯堆算力。

    总结与展望

    MiMo-V2.5-Pro-UltraSpeed 通过模型与系统协同设计,在通用 GPU 上实现了万亿参数模型的千级 tokens/s 推理速度,标志着大模型从“能做”向“快用”迈出关键一步。未来,随着编译优化与稀疏计算技术的成熟,实时推理成本有望进一步降低,助力大模型在更多业务场景中落地。

    平台声明:该文观点仅代表作者本人,快搜系信息发布平台,本平台仅提供信息存储空间服务。
    作者声明:本文系 MDMS 原创,未经许可,谢绝转载。
    相关话题 万亿参数模型推理速度UltraSpeedMoETileRT

    热门话题

    最新话题