SmolLM3

2504
0
0

SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数，却性能卓越，超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口，可处理英语、法语等6种语言文本，还支持深度思考和非思考双推理模式

工具标签：

# AI大模型

直达网站

工具介绍

SmolLM3是什么？

SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数，却性能卓越，超越了Llama-3.2-3B和Qwen2.5-3B（通义千问）等同类开源模型。该模型具备128k上下文窗口，可处理英语、法语等6种语言文本，还支持深度思考和非思考双推理模式，能满足复杂推理及实时响应等不同需求。其采用transformer解码器架构，通过三阶段混合训练而成，架构细节与训练方法等已全部开源，为开发者提供了更灵活的轻量级解决方案，适合边缘计算与实时交互等场景。

模型参数：

SmolLM3的参数量为3.08亿，采用36层深度Transformer解码器架构，优化器为AdamW，峰值学习率2e-4，梯度裁剪1.0，权重衰减0.1。尽管参数规模较小，但其通过以下设计实现了高效性能：

分组查询注意力机制（GQA）：借鉴Llama系列的优化经验，提升计算效率。
文档内掩码技术：确保长上下文训练的有效性，支持超长文本处理。
NoPE技术：选择性移除部分旋转位置嵌入（RoPE），平衡长上下文与短文本性能。

模型性能：

在多项基准测试中，SmolLM3展现了显著优势：

多语言支持：支持英语、法语、西班牙语、德语等6种语言，覆盖全球主要语言市场。
长上下文处理：128K上下文窗口（约200页文档），可处理复杂任务如法律合同分析、长篇报告总结。
推理能力：在数学推理、代码生成等任务中，性能接近或超越70亿参数模型。
效率优势：在相同硬件条件下，推理速度比Llama-3.2-3B快30%，能耗降低40%。

核心特点：

1. 深度思考与非思考双模式

SmolLM3首创双模式推理架构，用户可通过系统提示灵活切换：

深度思考模式：激活推理轨迹生成，适合数学证明、代码调试等复杂任务。例如，在解决数学题时，模型会逐步展示思考过程，而非直接给出答案。
非思考模式：直接生成响应，适用于对话、摘要等场景，响应速度提升50%。

技术实现：通过在系统提示中插入<code>/think</code>或<code>/no_think</code>标志激活模式，并利用XML/Python工具描述支持工具调用。

2. 开源架构与训练透明化

Hugging Face完全公开了SmolLM3的架构细节、数据混合方法及训练流程，包括：

三阶段混合训练：
中期训练优化：通过长上下文扩展（从4K→128K）和推理适应训练，提升模型对超长文本的处理能力。
后期训练对齐：采用APO（锚定偏好优化）进行离策略对齐，结合Tulu3偏好数据集和合成偏好对，提升模型输出的安全性和一致性。

3. 模型合并与性能恢复

针对长上下文基准测试中的性能下降问题，SmolLM3通过模型合并技术恢复性能：

合并策略：将APO模型混合体（权重0.9）与中期训练检查点（权重0.1）线性合并，最终模型在128K上下文上的RULER分数与基础模型持平。

架构与训练：

1. 架构设计

SmolLM3基于SmolLM2架构改进，核心优化包括：

RoPE参数调整：在长上下文扩展中，RoPE theta从50K逐步增加至500万，支持128K上下文外推。
分层训练策略：通过分组查询注意力（GQA）和文档内掩码，提升训练效率。

2. 训练配置

硬件资源：在384块H100 GPU上分布式训练24天，采用张量并行（TP=2）和8路模型并行。
数据规模：总训练数据量达11.2万亿tokens，涵盖网络文本、代码库（如GitHub、StackExchange）和数学数据集（如FineMath4+、MegaMath）。
优化目标：峰值学习率2e-4，批处理大小236万tokens，优化器为AdamW（β1=0.8, β2=0.95）。

如何使用SmolLM3？

模型下载

基础模型：HuggingFaceTB/SmolLM3-3B-Base
推理模型：HuggingFaceTB/SmolLM3-3B

应用场景

智能客服：利用非思考模式快速响应用户查询，深度思考模式处理复杂投诉。
代码辅助：生成代码片段并解释逻辑，支持开发者调试。
法律分析：处理长篇合同，提取关键条款并评估风险。
多语言内容生成：支持跨语言营销文案、新闻摘要等任务。

未来发展：小参数模型的“大时代”

SmolLM3的发布标志着小参数模型进入“高性能+高灵活性”的新阶段。随着开源社区的持续优化，该模型有望在边缘计算、移动设备等资源受限场景中发挥关键作用。Hugging Face首席执行官克莱门特·德朗格表示：“SmolLM3证明了参数规模并非唯一标准，通过架构创新与训练优化，小模型也能实现大突破。”

结语：SmolLM3以30亿参数重新定义了AI模型的效率与能力边界。其双模式推理、128K上下文窗口和完全开源的特性，不仅为开发者提供了强大工具，也为AI技术的普惠化开辟了新路径。未来，随着更多社区贡献者的加入，SmolLM3有望成为小参数模型的标杆之作。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

AITOP100平台大赛社群二维码

全部评论

暂无评论

SmolLM3

工具介绍

SmolLM3是什么？

模型参数：

模型性能：