小红书放大招！首个自研大模型dots.llm1开源，中文能力杠杠滴！-AITOP100,AI资讯

小红书也玩大模型啦！dots.llm1重磅来袭！

最近，小红书搞了个大新闻！他们家自己研发的首个大模型——dots.llm1，正式开源啦！听到这个消息，我瞬间感觉，这下中文AI界又要热闹起来了！

这个dots.llm1可不是闹着玩的，足足有1420亿个参数！厉害之处在于，它用的是一种叫做专家混合模型（MoE）的架构。简单来说，就像一个拥有超多技能的团队，平时各司其职，关键时刻大家一起上，效率杠杠的！更牛的是，它在实际应用的时候，只需要激活其中的140亿个参数，这意味着啥？意味着又快又省钱啊！训练和推理成本大大降低，简直不要太划算！

海量数据喂养，中文能力直接起飞！

光有强大的硬件还不够，软件也得跟上！dots.llm1背后可是有11.2万亿个高质量的训练数据撑腰！这些数据可不是随便合成的，都是实打实的干货！在现在开源的大模型里，这么高质量的数据集可不多见，可见小红书在语言处理方面下了多大的功夫！

效果怎么样？那必须是杠杠的！在中文测试中，dots.llm1的平均得分高达91.3，直接秒杀了像 DeepSeek的V2、V3，还有阿里巴巴的Qwen2.5系列等一众竞争对手。这下，小红书可算是扬眉吐气了一把！

技术细节大揭秘：MoE架构是关键！

那dots.llm1到底是怎么做到的呢？咱们来简单扒一扒它的技术架构。它用的是单向解码器Transformer结构，这个是目前主流的大模型标配。但是，它把传统的前馈网络换成了MoE，也就是我们前面说的专家混合模型。这个MoE就像是把一群专家分开，每个专家负责不同的领域，这样在推理的时候，只需要激活少数几个相关的专家，就能完成任务，大大节省了算力。

具体来说，dots.llm1里有128个路由专家和2个共享专家。每个专家都是一个两层的前馈网络，用SwiGLU激活函数来捕捉数据中的复杂关系。在处理输入信息时，模型会聪明地选择6个最相关的专家和2个共享专家一起工作。