Liquid AI发布LFM2-8B-A1B：8B参数仅激活1.5B，手机端跑出4B级AI性能新高度！-AITOP100,AI资讯

2025年10月07日，AI圈又出大新闻！Liquid AI推出的LFM2-8B-A1B模型，凭借其创新的混合专家架构（MoE），在参数规模和运行效率上实现了惊人突破——总参数8.3B，但每token仅激活1.5B参数，却能跑出媲美3-4B稠密模型的性能。更厉害的是，它还能在手机、平板等边缘设备上流畅运行，直接挑战“小规模MoE不高效”的行业偏见。

LFM2-8B-A1B

MoE架构创新：稀疏激活，性能不减

LFM2-8B-A1B的核心亮点在于其稀疏激活机制。不同于传统MoE模型依赖大规模参数堆砌，它通过动态激活部分专家（每层32个专家中仅激活top-4），在保持高表示能力的同时，大幅降低计算负载。这种设计让模型在资源受限的设备端也能高效运行，特别适合实时交互场景，比如手机端的语音助手、智能客服等。

模型架构基于LFM2混合骨干，包含18个门控短卷积块和6个分组查询注意力（GQA）块。除前两层保持稠密以确保稳定性外，其余层均集成稀疏MoE前馈网络。通过归一化sigmoid路由器结合自适应偏置，实现负载均衡，避免专家过载或闲置。此外，模型支持32K上下文长度，兼容英文、中文、阿拉伯文、法文、德文、日文、韩文和西班牙文等多语言，满足全球化需求。

训练与性能：12T令牌铸就超强实力

LFM2-8B-A1B的训练数据量高达12T令牌，涵盖55%英文、25%多语言和20%代码，确保模型在知识理解、指令跟随和多语言处理上的全面性。后训练阶段采用Liquid Preference Alignment（长度归一化DPO/APO-Zero融合），结合混合BF16/FP8精度，将训练效率提升3倍以上。

在基准测试中，LFM2-8B-A1B的表现堪称惊艳：

知识与指令跟随：MMLU-Pro得分37.4（较LFM2-2.6B提升11.5），IFEval77.6，Multi-IF58.2。
数学能力：GSM8K84.4，GSMPlus64.8，MATH50074.2。
多语言处理：MGSM72.4，MMMLU55.3。
编码与写作：HumanEval+69.5，LiveCodeBench v621.0，EQ-Bench44.2。

整体输出质量媲美3-4B稠密模型，在多轮对话、创意写作、RAG检索增强生成和工具调用等任务中表现尤为出色。

部署与集成：5倍加速，适配主流框架

LFM2-8B-A1B的推理速度堪称“快如闪电”。在AMD Ryzen AI9HX370和三星Galaxy S24Ultra等设备上，通过int4量化与int8动态激活的自定义XNNPACK MoE内核，其解码吞吐量比Qwen3-1.7B、IBM Granite4.0等模型快达5倍。GPU端集成vLLM，支持FlashInfer和CUDA-graph编译，实现单请求与在线批处理的高效运行。

模型提供多种量化变体，适配不同设备：

Q4_0：约4.7GB，适合高配手机/平板/笔记本。
F16：约16.7GB，满足高性能需求。

支持框架包括llama.cpp（需b6709+版本支持lfm2moe）、ExecuTorch（移动/嵌入式CPU）和vLLM（GPU）。此外，Hugging Face上提供GGUF量化文件及Colab微调笔记本，开发者可快速上手。模型已在Liquid Playground上线测试，欢迎体验。

开源与影响：推动设备端AI普惠化

LFM2-8B-A1B采用LFM Open License v1.0（基于Apache2.0）开源，权重与技术细节已上传Hugging Face（LiquidAI/LFM2-8B-A1B）。这一发布不仅降低了AI部署门槛，更为边缘计算注入新活力——从隐私保护的实时聊天到嵌入式智能系统，均可受益。在云AI成本飙升的当下，LFM2-8B-A1B等高效模型正加速“AI下沉”趋势，让更多设备端应用享受AI红利。

结语：边缘AI的新标杆

LFM2-8B-A1B的推出，标志着边缘AI进入“高效+实用”的新阶段。它用创新架构证明：参数规模不是唯一标准，智能激活才是关键。无论是开发者还是普通用户，都能从中感受到AI技术带来的便利与惊喜。

项目地址：https://huggingface.co/LiquidAI/LFM2-8B-A1B