2025年11月12日,东北大学“小牛翻译”团队正式上线了其最新大模型——NiuTrans.LMT(Large-scale Multilingual Translation)。这款模型可不简单,它升级至支持60种语言、234个翻译方向,覆盖范围之广令人惊叹。它以中文与英文为双核心,搭建起全球语言的沟通桥梁,难道这不是为语言交流打开了一扇全新的大门吗?与以往翻译模型相比,它更是在藏语、阿姆哈拉语等29种低资源语言上取得了重大突破,为全球语言平等迈出了坚实的一步。

双中心架构:打破“英语霸权”的利器
多数翻译模型都以英语为唯一枢纽,而NiuTrans.LMT却独辟蹊径,采用中 - 英双中心设计。这一设计支持中文↔58种语言、英文↔59种语言的高质量直译,避免了“中文→英文→小语种”这种二次失真的情况。就好比原本需要绕个弯才能到达目的地,现在有了直通车,直接就能抵达。这种架构对于“一带一路”沿线国家与中文使用者来说,简直是福音,极大地推动了跨文化交互去中介化。
在语言交流日益频繁的今天,不同文化背景的人们渴望更直接、高效的沟通方式。NiuTrans.LMT的双中心架构正好满足了这一需求,让中文使用者能够与更多语言群体直接对话,打破了以往因语言转换带来的沟通障碍。

三层语言覆盖:兼顾效率与公平的智慧
NiuTrans.LMT模型对语言资源进行了精准划分,形成了三层语言覆盖体系。
- 高资源语言:像法语、阿拉伯语、西班牙语等13种高资源语言,翻译流畅度简直能和人类相媲美。这就好比一位经验丰富的翻译大师,能够轻松自如地应对各种翻译场景。
- 中资源语言:对于印地语、芬兰语等18种中资源语言,模型在专业术语与语法结构上高度准确。就像一位严谨的学者,对每一个细节都把握得恰到好处。
- 低资源语言:包含藏语、斯瓦希里语、孟加拉语等29种低资源语言,通过数据增强与迁移学习,实现了从“不可译”到“可用译”的巨大跨越。这无疑是为那些曾经被边缘化的语言打开了通往世界的大门。
两阶段训练:性能登顶FLORES - 200的秘诀
NiuTrans.LMT在权威多语言基准FLORES - 200上表现出色,稳居开源模型榜首。这得益于它创新的两阶段训练流程。
首先是继续预训练(CPT),模型在900亿tokens的多语言语料上进行均衡学习,确保小语种不会被淹没在海量数据中。就像在一片广阔的森林里,每一棵树都能得到充足的阳光和养分。接着是监督微调(SFT),整合FLORES - 200、WMT等高质量平行语料(56.7万条样本,覆盖117方向),对翻译准确性与风格一致性进行精调。这就好比一位雕刻家,对作品进行最后的精细打磨,使其更加完美。
四大规模开源:满足不同场景需求
为了满足不同场景的需求,团队同步开源了0.6B、1.7B、4B、8B四种参数规模模型,并且全部可在GitHub与Hugging Face免费下载。轻量版模型可以在消费级GPU上运行,非常适合移动端部署,就像给手机装上了一个强大的翻译小助手。而8B版本则面向企业级高精度翻译场景,支持API集成与私有化部署,为企业提供专业的翻译解决方案。
在如今这个全球化的时代,不同规模的企业和个人对翻译的需求各不相同。NiuTrans.LMT的四大规模开源,就像是为不同需求的用户量身定制了合适的工具,无论是个人日常交流,还是企业的大型项目,都能找到适合自己的翻译模型。
值得一提的是,NiuTrans.LMT的发布不仅仅是一项技术成果,更是对“语言多样性保护”的实际行动。当AI能够精准翻译藏语诗歌、非洲谚语或北欧古语时,技术才真正具备了人文温度。东北大学的这一开源举措,无疑为全球构建一个无语言壁垒的数字未来奠定了基石。
相信在未来,这款模型将在更多领域发挥重要作用,让世界因为语言的畅通而更加紧密地联系在一起。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









