新一代翻译模型 Hy-MT2 正式开源
2026 年 5 月 21 日,腾讯混元正式开源了其全新一代多语言翻译模型 —— Hy-MT2。与此前广受关注的 Hy-MT1.5 相比,Hy-MT2 在翻译质量、多语言指令遵循能力以及端侧部署友好性上均实现了有效增强。同一天,腾讯同步上线了“腾讯 Hy 翻译”小程序,iOS 与安卓 App 也即将推出,支持本地离线推理,让高质量翻译真正触手可及。
三大尺寸模型覆盖不同场景
Hy-MT2 系列包含三个不同规模的模型,以满足从云端高性能到移动端低功耗的多样化需求:
- Hy-MT2-1.8B:参数量 1.8B,主打轻量级部署,可在 1GB 内存的移动设备上离线运行,同时性能已超越微软等主流商业 API。
- Hy-MT2-7B:70 亿参数模型,在通用翻译和专业领域任务上达到开源模型最佳水平,超越许多几十倍参数量的模型。
- Hy-MT2-30B-A3B:采用混合专家(MoE)架构,总参数量 30B,但每次推理仅激活约 3B 参数,兼具强大翻译能力和高效计算。
三个模型均支持相同的 33 种语言互译及 5 种民族语言/方言互译,用户可根据硬件资源和精度要求灵活选择。
33 种语言与 5 种民族语言/方言支持
Hy-MT2 覆盖的语言范围广泛,不仅包括中文、英语、日语、法语、德语等常见语种,还覆盖了捷克语、冰岛语、阿拉伯语等小语种,总计 33 个语种。除此之外,模型额外支持 5 种民族语言或方言(如藏语、维语等,具体列表需参考官方文档),这一特性对于国内多民族地区的交流以及文化遗产数字化有深远影响。
支持的语言列表(示例,非完整):
| 语种类型 | 示例 |
|---|---|
| 常见语种 | 中文、英文、日文、韩文、法文、德文、西班牙文、葡萄牙文、俄文、阿拉伯文 |
| 小语种 | 捷克语、冰岛语、匈牙利语、土耳其语、越南语、印尼语、马来语等 |
| 民族语言/方言 | 藏语、维吾尔语、蒙古语等(共 5 种) |
技术突破:三阶段训练策略与效果提升
腾讯混元团队针对多语言翻译中语料匮乏、术语一致性差等痛点,提出了独创的“三阶段”训练策略:
- 多语言增训(CPT):针对 33 种语言,采用小学习率 Warmup + Cosine Decay 策略,利用大规模平行语料和单语语料进行持续预训练,增强模型对低频语言的理解能力。
- 指令微调:通过精心构建的指令数据,使模型能够准确理解用户意图,例如“将这段中文翻译成正式的英文”或“把日文翻译成中文,注意保留敬语”。
- 对齐优化:利用人类反馈和自动评估指标进一步精调,提升翻译的自然度和专业术语准确率。
相比上一代 Hy-MT1.5,Hy-MT2 在多个基准测试(如 WMT2025 赛道)上实现了压倒性优势。其中,7B 和 30B-A3B 模型在 33 个语种的多项翻译任务上达到了开源模型最佳效果,部分指标甚至超越参数量大数十倍的商业闭源模型。即使是 1.8B 的轻量版本,在通用翻译、专业领域和指令遵循能力上也能与主流商业 API 一较高下。
端侧部署:手机离线翻译成为现实
Hy-MT2 的一大亮点是全面支持端侧本地推理。1.8B 模型量化后体积仅约 440MB,可在 1GB 内存的手机上流畅运行,即便没有网络也能完成高质量翻译。腾讯 Hy 翻译小程序已率先接入该模型,用户打开小程序即可体验离线翻译功能,无需上传数据到云端,隐私安全更有保障。
具体而言,端侧部署的优势包括:
- 完全离线:无网络环境下依然可用,适合出国旅行、信号薄弱区域等场景。
- 低内存占用:1.8B 模型经优化后仅需 440MB 存储空间,普通手机即可容纳。
- 低功耗:基于高效的推理框架,一次翻译耗电极低,不影响日常使用。
- 隐私保护:所有翻译数据均在本地处理,不经过云端,避免敏感信息泄露。
腾讯官方表示,iOS 和安卓端原生 App 也即将上线,届时用户可享受更完整的翻译体验,包括文本翻译、拍照翻译、对话翻译等功能。
腾讯 Hy 翻译小程序上线及未来规划
“腾讯 Hy 翻译”小程序已于开源同日开放体验。该小程序集成了 Hy-MT2 三个模型,用户可自由选择使用云端高性能版(30B-A3B)或本地轻量版(1.8B)。小程序界面简洁,支持 33 种语言的直接互译,输入文字后几乎瞬时呈现结果。后续版本还将加入语音输入、图片识别翻译等功能。
除了 C 端应用,腾讯混元也鼓励开发者基于开源模型进行二次开发。Hy-MT2 已在 GitHub 上公开模型权重、推理脚本和部署指南,企业和个人可以轻松将模型集成到自有产品中,例如跨境电商客服、多语言内容管理、实时字幕翻译等场景。
总结与展望
腾讯混元 Hy-MT2 的开源,标志着多语言机器翻译进入了一个新阶段——高性能模型不再局限于云端,而是真正走向了用户的指尖。凭借三阶段训练策略带来的效果飞跃、三种尺寸模型对全场景的覆盖,以及端侧离线部署的便利性,Hy-MT2 有望在全球化交流、文化遗产保护、移动办公等领域发挥重要作用。未来,随着腾讯混元持续优化训练算法和推理框架,我们有理由期待更小、更快、更精准的翻译模型,让语言不再是沟通的障碍。