SmolLM3
4154
0
0
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式
工具标签:
直达网站
工具介绍

SmolLM3是什么?
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B(通义千问)等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式,能满足复杂推理及实时响应等不同需求。其采用transformer解码器架构,通过三阶段混合训练而成,架构细节与训练方法等已全部开源,为开发者提供了更灵活的轻量级解决方案,适合边缘计算与实时交互等场景。
模型参数:
SmolLM3的参数量为3.08亿,采用36层深度Transformer解码器架构,优化器为AdamW,峰值学习率2e-4,梯度裁剪1.0,权重衰减0.1。尽管参数规模较小,但其通过以下设计实现了高效性能:
- 分组查询注意力机制(GQA):借鉴Llama系列的优化经验,提升计算效率。
- 文档内掩码技术:确保长上下文训练的有效性,支持超长文本处理。
- NoPE技术:选择性移除部分旋转位置嵌入(RoPE),平衡长上下文与短文本性能。
模型性能:
在多项基准测试中,SmolLM3展现了显著优势:
- 多语言支持:支持英语、法语、西班牙语、德语等6种语言,覆盖全球主要语言市场。
- 长上下文处理:128K上下文窗口(约200页文档),可处理复杂任务如法律合同分析、长篇报告总结。
- 推理能力:在数学推理、代码生成等任务中,性能接近或超越70亿参数模型。
- 效率优势:在相同硬件条件下,推理速度比Llama-3.2-3B快30%,能耗降低40%。

核心特点:
1. 深度思考与非思考双模式
SmolLM3首创双模式推理架构,用户可通过系统提示灵活切换:
- 深度思考模式:激活推理轨迹生成,适合数学证明、代码调试等复杂任务。例如,在解决数学题时,模型会逐步展示思考过程,而非直接给出答案。
- 非思考模式:直接生成响应,适用于对话、摘要等场景,响应速度提升50%。
技术实现:通过在系统提示中插入<code>/think</code>或<code>/no_think</code>标志激活模式,并利用XML/Python工具描述支持工具调用。
2. 开源架构与训练透明化
Hugging Face完全公开了SmolLM3的架构细节、数据混合方法及训练流程,包括:
- 三阶段混合训练:
- 中期训练优化:通过长上下文扩展(从4K→128K)和推理适应训练,提升模型对超长文本的处理能力。
- 后期训练对齐:采用APO(锚定偏好优化)进行离策略对齐,结合Tulu3偏好数据集和合成偏好对,提升模型输出的安全性和一致性。
3. 模型合并与性能恢复
针对长上下文基准测试中的性能下降问题,SmolLM3通过模型合并技术恢复性能:
- 合并策略:将APO模型混合体(权重0.9)与中期训练检查点(权重0.1)线性合并,最终模型在128K上下文上的RULER分数与基础模型持平。
架构与训练:
1. 架构设计
SmolLM3基于SmolLM2架构改进,核心优化包括:
- RoPE参数调整:在长上下文扩展中,RoPE theta从50K逐步增加至500万,支持128K上下文外推。
- 分层训练策略:通过分组查询注意力(GQA)和文档内掩码,提升训练效率。
2. 训练配置
- 硬件资源:在384块H100 GPU上分布式训练24天,采用张量并行(TP=2)和8路模型并行。
- 数据规模:总训练数据量达11.2万亿tokens,涵盖网络文本、代码库(如GitHub、StackExchange)和数学数据集(如FineMath4+、MegaMath)。
- 优化目标:峰值学习率2e-4,批处理大小236万tokens,优化器为AdamW(β1=0.8, β2=0.95)。
如何使用SmolLM3?
模型下载
- 基础模型:HuggingFaceTB/SmolLM3-3B-Base
- 推理模型:HuggingFaceTB/SmolLM3-3B
应用场景
- 智能客服:利用非思考模式快速响应用户查询,深度思考模式处理复杂投诉。
- 代码辅助:生成代码片段并解释逻辑,支持开发者调试。
- 法律分析:处理长篇合同,提取关键条款并评估风险。
- 多语言内容生成:支持跨语言营销文案、新闻摘要等任务。
未来发展:小参数模型的“大时代”
SmolLM3的发布标志着小参数模型进入“高性能+高灵活性”的新阶段。随着开源社区的持续优化,该模型有望在边缘计算、移动设备等资源受限场景中发挥关键作用。Hugging Face首席执行官克莱门特·德朗格表示:“SmolLM3证明了参数规模并非唯一标准,通过架构创新与训练优化,小模型也能实现大突破。”
结语:SmolLM3以30亿参数重新定义了AI模型的效率与能力边界。其双模式推理、128K上下文窗口和完全开源的特性,不仅为开发者提供了强大工具,也为AI技术的普惠化开辟了新路径。未来,随着更多社区贡献者的加入,SmolLM3有望成为小参数模型的标杆之作。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

EmaFusion
EmaFusion是Ema公司推出的一款新型AI语言模型,它采用了一种创新的“级联”判断系统,能够动态平衡成本和准确性。与传统的单一策略系统相比,EmaFusion更像是一个“任务智能大脑”,能够智能地拆解复杂的问题,并将其分配给最合适的AI模型来解决。
小悟空AI
小悟空基于大语言模型的AI工具合集,用智慧的服务,满足用户的工作、生活和娱乐需求。该应用还具有智能对话功能,可以解决用户遇到的问题并进行辅助推荐。
Llama
Meta Llama模型是Meta研发的大型语言模型系列,它基于先进的深度学习架构,旨在处理和理解自然语言。Llama模型以其强大的语言处理能力和广泛的应用场景,成为了AI领域的一款全能选手。无论是文本生成、语言理解,还是多模态交互,Llama模型都能展现出其卓越的性能。
豆蔻妇科大模型
豆蔻妇科大模型由壹生检康(杭州)生命科技有限公司研发,基于Qwen底座模型,通过针对性合成症状数据、蒸馏训练及医学专家标注思维链,依托高质量数据完成微调和强化训练。2025年7月,该模型以64.94分的成绩通过国家妇产科卫生高级职称(正高)笔试考试,成为首成为国内首个达到主任级医师水平的垂直医疗模型
dots.llm1
dots.llm1是小红书Hi Lab研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务.
方糖大模型
方糖大模型是像素蛋糕自主研发的AI影像生成与处理系统,专为商业摄影、广告营销、影视制作、游戏开发等场景设计。其核心优势在于通过百亿级参数规模与多尺度分层蒸馏技术,实现高效、高质量的图像生成与编辑,同时符合国家政策对安全性和规范性的严格要求。
Fabric 1.0:
VEED Fabric 1.0是VEED.IO 推出的全球首款AI会说话视频模型,它实现了从静态图像到动态叙事的重大跨越,仅需一张图片结合语音输入,就能生成最长1分钟、具备逼真唇形同步和自然面部表情的会话视频。该模型专为“talking head”视频设计,生成速度极快,成本大幅降低,还集成多种生态
ChatDLM
ChatDLM是Qafind Labs于2025年推出的新一代对话生成大模型,通过融合"区块扩散(Block Diffusion)"与"专家混合(MoE)"技术,该模型在保持7B参数量级的同时,实现了A100 GPU上2800 tokens/s的推理速度,较GPT-4等通用模型提升3-5倍。
0
0






