小红书也玩大模型啦!dots.llm1重磅来袭!
最近,小红书搞了个大新闻!他们家自己研发的首个大模型——dots.llm1,正式开源啦!听到这个消息,我瞬间感觉,这下中文AI界又要热闹起来了!
这个dots.llm1可不是闹着玩的,足足有1420亿个参数!厉害之处在于,它用的是一种叫做专家混合模型(MoE)的架构。简单来说,就像一个拥有超多技能的团队,平时各司其职,关键时刻大家一起上,效率杠杠的!更牛的是,它在实际应用的时候,只需要激活其中的140亿个参数,这意味着啥?意味着又快又省钱啊!训练和推理成本大大降低,简直不要太划算!
海量数据喂养,中文能力直接起飞!
光有强大的硬件还不够,软件也得跟上!dots.llm1背后可是有11.2万亿个高质量的训练数据撑腰!这些数据可不是随便合成的,都是实打实的干货!在现在开源的大模型里,这么高质量的数据集可不多见,可见小红书在语言处理方面下了多大的功夫!
效果怎么样?那必须是杠杠的!在中文测试中,dots.llm1的平均得分高达91.3,直接秒杀了像DeepSeek的V2、V3,还有阿里巴巴的Qwen2.5系列等一众竞争对手。这下,小红书可算是扬眉吐气了一把!
技术细节大揭秘:MoE架构是关键!
那dots.llm1到底是怎么做到的呢?咱们来简单扒一扒它的技术架构。它用的是单向解码器Transformer结构,这个是目前主流的大模型标配。但是,它把传统的前馈网络换成了MoE,也就是我们前面说的专家混合模型。这个MoE就像是把一群专家分开,每个专家负责不同的领域,这样在推理的时候,只需要激活少数几个相关的专家,就能完成任务,大大节省了算力。
具体来说,dots.llm1里有128个路由专家和2个共享专家。每个专家都是一个两层的前馈网络,用SwiGLU激活函数来捕捉数据中的复杂关系。在处理输入信息时,模型会聪明地选择6个最相关的专家和2个共享专家一起工作。
各种优化齐上阵,效果稳定又高效!
除了MoE架构,dots.llm1还用了很多其他的优化技巧。比如,它引入了改进的RMSNorm归一化操作,让模型的性能更稳定。在MoE模块中,它还采用了负载平衡策略,确保每个专家都能得到充分利用,避免出现某些专家过度劳累的情况。
为了提高训练效率,dots.llm1还使用了AdamW优化器,这个优化算法可以有效防止模型过拟合,还能控制梯度爆炸,保证训练过程的顺利进行。
高质量数据是基础,三级流水线严格把关!
训练大模型,数据才是王道!dots.llm1的数据经过了严格的三级数据处理流水线,确保每一份数据都是高质量的。经过一系列的过滤和处理,最终形成了这11.2万亿个高质量token的训练数据。而且,小红书还开源了每1万亿token的中间训练检查点,方便学术界的研究人员进一步探索。
小红书这次开源的dots.llm1,无论是从模型规模、数据质量,还是技术架构上来看,都诚意满满!期待它在未来的中文AI领域,能够发挥更大的作用!