腾讯混元发布HY-1.8B-2Bit端侧模型：内存占用仅600MB，生成速度提升2至3倍-AITOP100,AI资讯

在人工智能技术飞速发展的今天，大模型的应用场景正不断拓展，然而，如何在端侧设备上高效部署大模型，实现“减脂增肌”，一直是行业面临的重要挑战。

2026年2月10日，腾讯混元团队宣布推出面向消费级硬件的极小模型HY-1.8B-2Bit，凭借首个产业级2Bit量化方案，将等效参数量压缩至0.3B，内存占用仅约600MB，体积甚至小于部分常用手机应用，为大模型在端侧的落地应用带来了重大突破。

腾讯混元发布HY-1.8B-2Bit端侧模型

技术突破：2Bit量化攻克精度与体积的双重难题

在模型部署过程中，量化是降低模型体积、提升运行效率的关键技术。然而，量化位数越低，模型的精度损失通常越大，如何在保证性能的同时实现极致压缩，一直是行业内的“不可能任务”。

腾讯混元团队此次放弃了传统的PTQ（后量化）策略，转而采用量化感知训练（QAT），并结合数据优化、弹性拉伸量化及策略创新，成功实现了2Bit量化下的高精度输出。

腾讯混元发布HY-1.8B-2Bit端侧模型

实验数据显示，HY-1.8B-2Bit在数学、代码及科学等核心指标上，表现已与4Bit PTQ模型版本持平，这意味着在大幅压缩体积的同时，模型依然保持了极强的“全科能力”。

性能表现：生成速度翻倍，适配多种端侧硬件

得益于极致的压缩技术，HY-1.8B-2Bit在真实端侧设备上的表现令人瞩目。与原始精度模型相比，其生成速度提升了2—3倍，具体表现如下：

MacBook M4：在1024输入内，首字时延实现3~8倍加速，生成速度保持2倍以上稳定提升。
天玑9500：对比Q4格式，首字时延加速1.5~2倍，生成速度加速约1.5倍。

此外，HY-1.8B-2Bit还沿用了Hunyuan-1.8B-Instruct的长短思维链能力，用户可根据任务复杂度灵活切换，进一步提升了模型的实用性和灵活性。

全思考能力：长短思维链灵活切换，满足多样化需求

HY-1.8B-2Bit不仅在体积和速度上实现了突破，更在思考能力上保持了高水平。通过沿用Hunyuan-1.8B-Instruct的长短思维链能力，该模型能够根据任务复杂度自动调整思考模式，无论是简单问答还是复杂推理，都能游刃有余。这种灵活性和适应性，使得HY-1.8B-2Bit在端侧AI应用中具有更广泛的适用性。

未来布局：强化学习与模型蒸馏，缩小能力差距

目前，HY-1.8B-2Bit已提供GGUF-int2格式权重，并在Arm SME2技术平台上完成适配，可广泛应用于手机、耳机及智能家居等对离线部署和隐私有极高要求的场景。腾讯混元表示，未来将通过强化学习与模型蒸馏技术，进一步缩小低比特模型与全精度模型的能力差距，推动端侧AI向更高水平发展。