2025年10月07日,AI圈又出大新闻!Liquid AI推出的LFM2-8B-A1B模型,凭借其创新的混合专家架构(MoE),在参数规模和运行效率上实现了惊人突破——总参数8.3B,但每token仅激活1.5B参数,却能跑出媲美3-4B稠密模型的性能。更厉害的是,它还能在手机、平板等边缘设备上流畅运行,直接挑战“小规模MoE不高效”的行业偏见。

MoE架构创新:稀疏激活,性能不减
LFM2-8B-A1B的核心亮点在于其稀疏激活机制。不同于传统MoE模型依赖大规模参数堆砌,它通过动态激活部分专家(每层32个专家中仅激活top-4),在保持高表示能力的同时,大幅降低计算负载。这种设计让模型在资源受限的设备端也能高效运行,特别适合实时交互场景,比如手机端的语音助手、智能客服等。
模型架构基于LFM2混合骨干,包含18个门控短卷积块和6个分组查询注意力(GQA)块。除前两层保持稠密以确保稳定性外,其余层均集成稀疏MoE前馈网络。通过归一化sigmoid路由器结合自适应偏置,实现负载均衡,避免专家过载或闲置。此外,模型支持32K上下文长度,兼容英文、中文、阿拉伯文、法文、德文、日文、韩文和西班牙文等多语言,满足全球化需求。
训练与性能:12T令牌铸就超强实力
LFM2-8B-A1B的训练数据量高达12T令牌,涵盖55%英文、25%多语言和20%代码,确保模型在知识理解、指令跟随和多语言处理上的全面性。后训练阶段采用Liquid Preference Alignment(长度归一化DPO/APO-Zero融合),结合混合BF16/FP8精度,将训练效率提升3倍以上。
在基准测试中,LFM2-8B-A1B的表现堪称惊艳:
- 知识与指令跟随:MMLU-Pro得分37.4(较LFM2-2.6B提升11.5),IFEval77.6,Multi-IF58.2。
- 数学能力:GSM8K84.4,GSMPlus64.8,MATH50074.2。
- 多语言处理:MGSM72.4,MMMLU55.3。
- 编码与写作:HumanEval+69.5,LiveCodeBench v621.0,EQ-Bench44.2。
整体输出质量媲美3-4B稠密模型,在多轮对话、创意写作、RAG检索增强生成和工具调用等任务中表现尤为出色。
部署与集成:5倍加速,适配主流框架
LFM2-8B-A1B的推理速度堪称“快如闪电”。在AMD Ryzen AI9HX370和三星Galaxy S24Ultra等设备上,通过int4量化与int8动态激活的自定义XNNPACK MoE内核,其解码吞吐量比Qwen3-1.7B、IBM Granite4.0等模型快达5倍。GPU端集成vLLM,支持FlashInfer和CUDA-graph编译,实现单请求与在线批处理的高效运行。
模型提供多种量化变体,适配不同设备:
- Q4_0:约4.7GB,适合高配手机/平板/笔记本。
- F16:约16.7GB,满足高性能需求。
支持框架包括llama.cpp(需b6709+版本支持lfm2moe)、ExecuTorch(移动/嵌入式CPU)和vLLM(GPU)。此外,Hugging Face上提供GGUF量化文件及Colab微调笔记本,开发者可快速上手。模型已在Liquid Playground上线测试,欢迎体验。
开源与影响:推动设备端AI普惠化
LFM2-8B-A1B采用LFM Open License v1.0(基于Apache2.0)开源,权重与技术细节已上传Hugging Face(LiquidAI/LFM2-8B-A1B)。这一发布不仅降低了AI部署门槛,更为边缘计算注入新活力——从隐私保护的实时聊天到嵌入式智能系统,均可受益。在云AI成本飙升的当下,LFM2-8B-A1B等高效模型正加速“AI下沉”趋势,让更多设备端应用享受AI红利。
结语:边缘AI的新标杆
LFM2-8B-A1B的推出,标志着边缘AI进入“高效+实用”的新阶段。它用创新架构证明:参数规模不是唯一标准,智能激活才是关键。无论是开发者还是普通用户,都能从中感受到AI技术带来的便利与惊喜。
项目地址:https://huggingface.co/LiquidAI/LFM2-8B-A1B








