在人工智能技术飞速发展的今天,大模型的应用场景正不断拓展,然而,如何在端侧设备上高效部署大模型,实现“减脂增肌”,一直是行业面临的重要挑战。
2026年2月10日,腾讯混元团队宣布推出面向消费级硬件的极小模型HY-1.8B-2Bit,凭借首个产业级2Bit量化方案,将等效参数量压缩至0.3B,内存占用仅约600MB,体积甚至小于部分常用手机应用,为大模型在端侧的落地应用带来了重大突破。

技术突破:2Bit量化攻克精度与体积的双重难题
在模型部署过程中,量化是降低模型体积、提升运行效率的关键技术。然而,量化位数越低,模型的精度损失通常越大,如何在保证性能的同时实现极致压缩,一直是行业内的“不可能任务”。
腾讯混元团队此次放弃了传统的PTQ(后量化)策略,转而采用量化感知训练(QAT),并结合数据优化、弹性拉伸量化及策略创新,成功实现了2Bit量化下的高精度输出。


实验数据显示,HY-1.8B-2Bit在数学、代码及科学等核心指标上,表现已与4Bit PTQ模型版本持平,这意味着在大幅压缩体积的同时,模型依然保持了极强的“全科能力”。
性能表现:生成速度翻倍,适配多种端侧硬件
得益于极致的压缩技术,HY-1.8B-2Bit在真实端侧设备上的表现令人瞩目。与原始精度模型相比,其生成速度提升了2—3倍,具体表现如下:
- MacBook M4:在1024输入内,首字时延实现3~8倍加速,生成速度保持2倍以上稳定提升。
- 天玑9500:对比Q4格式,首字时延加速1.5~2倍,生成速度加速约1.5倍。
此外,HY-1.8B-2Bit还沿用了Hunyuan-1.8B-Instruct的长短思维链能力,用户可根据任务复杂度灵活切换,进一步提升了模型的实用性和灵活性。
全思考能力:长短思维链灵活切换,满足多样化需求
HY-1.8B-2Bit不仅在体积和速度上实现了突破,更在思考能力上保持了高水平。通过沿用Hunyuan-1.8B-Instruct的长短思维链能力,该模型能够根据任务复杂度自动调整思考模式,无论是简单问答还是复杂推理,都能游刃有余。这种灵活性和适应性,使得HY-1.8B-2Bit在端侧AI应用中具有更广泛的适用性。
未来布局:强化学习与模型蒸馏,缩小能力差距
目前,HY-1.8B-2Bit已提供GGUF-int2格式权重,并在Arm SME2技术平台上完成适配,可广泛应用于手机、耳机及智能家居等对离线部署和隐私有极高要求的场景。腾讯混元表示,未来将通过强化学习与模型蒸馏技术,进一步缩小低比特模型与全精度模型的能力差距,推动端侧AI向更高水平发展。
结语:端侧AI的新篇章已经开启
腾讯混元HY-1.8B-2Bit的发布,不仅为大模型在端侧的落地应用提供了新的思路,更为整个行业树立了新的标杆。随着技术的不断进步和应用场景的持续拓展,我们有理由相信,端侧AI将迎来更加广阔的发展空间。
腾讯混元的这一创新,无疑为这一进程注入了新的动力,让我们共同期待端侧AI的美好未来。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










