Hugging Face再放大招！SmolLM3小参数模型强势来袭-AITOP100,AI资讯

在如今科技飞速发展的时代，AI领域那可是热闹非凡，各种新模型、新技术层出不穷。这不，全球知名的大模型开放平台Hugging Face又搞出了大动静，正式发布了最新开源模型——SmolLM3，这消息一出来，瞬间在AI圈子里炸开了锅。

SmolLM3

SmolLM3模型性能参数

SmolLM3虽然只有 30亿参数，属于小参数模型，但可千万别小瞧了它。和同类的开源模型，像Llama-3.2-3B和Qwen2.5-3B比起来，它的性能那可是显著超越。就好比一个身材小巧的运动员，却能在赛场上轻松战胜比自己体型大得多的对手，这实力不容小觑。

而且，SmolLM3还支持128k的上下文窗口，能处理的文本语言那叫一个丰富，英语、法语、西班牙语、德语等多种语言都不在话下。这意味着它在小参数模型领域又迈进了一大步，为多语言文本处理提供了新的有力工具。

多种推理模式，灵活应对难题

要说SmolLM3最让人眼前一亮的地方，那还得是它具备的深度思考和非思考两种推理模式。用户在实际使用的时候，可以根据具体需求灵活切换。就好比开车时可以根据路况切换不同的驾驶模式一样，遇到复杂问题，就开启深度思考模式，让模型充分发挥推理能力，深入分析问题，给出更精准的答案；要是问题比较简单，就可以用非思考模式，快速处理，节省时间和资源。这种创新设计，让模型在处理各种场景下的问题时都更加得心应手。

开源架构，推动行业发展

Hugging Face这次对SmolLM3可真是大方，把架构细节、数据混合方法以及模型训练流程全都公开了。这对于开发者们来说，简直就是一场“知识盛宴”。有了这些详细的信息，开发者们就能更深入地研究这个模型，根据自己的需求进行优化和改进。这种开放策略，无疑会极大地促进开源AI模型的进一步发展，让整个行业都能从中受益。

先进架构与精心训练，铸就强大性能

SmolLM3采用了先进的transformer解码器架构，它借鉴了SmolLM2的设计，同时还对Llama进行了关键性改进，目的就是提升效率和长上下文的表现。具体来说，模型使用了分组查询注意力机制和文档内掩码技术，这就好比给模型装上了一双“慧眼”，能更有效地处理长上下文训练，确保信息的准确捕捉和处理。

在训练配置方面，SmolLM3的参数量为3.08B，采用了36层的深度结构，优化器用的是AdamW。经过24天的分布式训练，就像经过了一场艰苦的马拉松，最终形成了这个强大的模型。

三阶段混合训练，全方位提升能力

这个模型的训练过程那也是相当讲究，分为三个阶段，利用多种类型的数据进行混合训练。

第一阶段，模型就像一个勤奋的学生，通过网络、数学和代码数据的综合训练，建立起通用能力，为后续的学习打下坚实的基础。第二阶段，引入更高质量的数学与代码数据，就好比给学生提供了更优质的教材，让模型的能力得到进一步提升。
最后，在第三阶段，模型进一步增强了对数学与代码数据的采样，就像给学生进行了针对性的强化训练，大大提升了它的推理和指令遵循能力。