dots.llm1

4169
0
0

dots.llm1是小红书Hi Lab研发的1420亿参数专家混合模型（MoE），采用稀疏激活架构，推理时仅激活140亿参数。这一设计在保持高性能的同时，大幅降低了训练和推理成本。模型支持中英双语，上下文长度达32,768个token，适用于语义理解、知识问答、代码生成等多场景任务.

工具标签：

# AI大模型

直达网站

工具介绍

小红书dots.llm1模型是什么？

dots.llm1是小红书Hi Lab（人文智能实验室）研发的1420亿参数专家混合模型（MoE），采用稀疏激活架构，推理时仅激活140亿参数。这一设计在保持高性能的同时，大幅降低了训练和推理成本。模型支持中英双语，上下文长度达32,768个token，适用于语义理解、知识问答、代码生成等多场景任务。其开源力度堪称业界标杆，不仅公开了基础模型和指令微调模型，还开源了每1万亿token的中间训练检查点，为学术研究提供了宝贵资源。

主要功能

dots.llm1的核心功能涵盖自然语言处理（NLP）的多个关键领域：

语义理解：在CLUEWSC测试中得分92.6，超越DeepSeek-V3等模型，展现出对中文语境的深刻理解。
综合知识问答：C-Eval测试得分92.2，超越包括Qwen2.5-72B在内的所有对比模型，知识覆盖面广且准确度高。
数学推理：在AIME24竞赛题中得分33.1，MATH500数据集得分84.8，接近当前最先进水平。
代码生成：在HumanEval等代码基准测试中表现优异，支持Python、C++等多种编程语言的代码生成。
指令遵循：在IFEval、AlpacaEval2等测试中平均得分77.9，能够准确理解和执行复杂指令。

模型架构：MoE与Transformer的深度融合

dots.llm1采用单向解码器Transformer架构，将传统前馈网络（FFN）替换为MoE模块。其核心创新包括：

专家网络设计：模型包含128个路由专家和2个共享专家，每个专家为两层前馈网络，使用SwiGLU激活函数捕捉复杂关系。
动态路由机制：处理输入标记时，模型通过路由机制选择6个最相关的专家和2个共享专家，激活8个专家网络进行计算，显著降低算力需求。
负载平衡策略：引入无辅助损失的动态偏置项，确保所有专家网络的负载均衡，避免过度依赖某些专家。
注意力层优化：采用多头注意力机制（MHA）与QK标准化，并引入RMSNorm归一化操作，稳定模型训练和输出。

技术创新：

交错式通信与计算重叠：与NVIDIA合作提出基于1F1B的交错式通信和计算重叠方案，通过重叠前向和后向步骤中的通信与计算，显著提升训练效率。在稳态1F1B阶段，内存消耗显著降低，计算时间掩盖通信延迟。
Grouped GEMM优化：优化分组通用矩阵乘法（GEMM）的实现，在H800 GPU上相比NVIDIA Transformer Engine，单算子前向计算平均提升14%，反向计算平均提升6.68%。
WSD学习率调度：采用Warmup-Stable-Decay（WSD）学习率调度策略，主训练阶段使用10万亿token，学习率从0逐步warmup至3e-4后保持稳定，全程无严重loss spike，无需回滚。
动态batch size调整：训练期间两次提升batch size，从初始的64M增加到96M，最终达到128M，通过渐进式扩大batch来提升训练效率。

训练数据与处理：

dots.llm1的训练数据是其核心竞争力之一。模型使用了11.2万亿token的非合成高质量数据，这些数据经过严格的三级数据处理流水线：

文档准备：利用URL过滤技术屏蔽成人、赌博等有害域名，通过trafilatura库精准提取正文内容，借助fastText语言检测工具过滤低置信度文档，并采用MD5去重方法去除重复数据。
规则处理：通过行级去重、启发式过滤、MinHash-LSH模糊去重等操作，剔除广告、注册提示等低质内容，保留Jaccard相似度<80%的文档。
模型处理：运用15亿参数分类器区分网页类型，保留高价值内容；通过自主开发的网页杂波去除模型逐行评分，过滤掉导航栏、边框等无关内容；使用200类分类器平衡数据分布，将百科、科普等知识性内容占比提升至60%。

经过上述处理流程，dots.llm1的训练数据质量显著优于开源TxT360数据，在MMLU、TriviaQA等基准测试中表现优异。

性能表现：

在综合评测中，dots.llm1展现出了极高的效率：

中文任务表现：在CLUEWSC、C-Eval等中文基准测试中，dots.llm1以91.3的平均分超越DeepSeek-V2、V3和阿里Qwen2.5系列，成为中文处理能力的佼佼者。
数学能力：在AIME24竞赛题中得分33.1，MATH500得分84.8，超越Qwen2.5系列，接近最先进水平。
代码能力：在HumanEval等代码基准测试中，dots.llm1的平均得分达到65.0，与Qwen2.5的水平相当。
指令遵循与人类偏好对齐：在IFEval、AlpacaEval2、ArenaHard等测试中，dots.llm1的平均得分77.9，表明模型能准确理解和执行复杂指令。

尤为值得一提的是，dots.llm1在激活参数仅为140亿的情况下，在多个维度上超越或打平720亿参数的Qwen2.5-Instruct，证明了其架构设计的有效性。

训练效率与优化：

dots.llm1在训练效率上实现了显著突破：

资源消耗对比：在Qwen2.5 72B训练每万亿tokens需34万GPU小时的情况下，dots.llm1仅需13万GPU小时，训练资源不到Qwen2.5 72B的四分之一。
基础设施创新：基于交错式1F1B流水线调度技术，研发了创新的混合专家全互联通信与计算重叠方案，配合高效分组GEMM实现，显著提升计算效率。
开源中间检查点：每训练1万亿token即发布中间模型检查点，为大型语言模型学习机制研究提供宝贵资源，促进学术研究的进一步发展。

开源与社区贡献：

dots.llm1的开源力度堪称业界标杆：

模型与代码公开：代码和权重已在Hugging Face和GitHub上公开，开发者可轻松获取并使用。
中间检查点开源：开源了每1万亿token的中间训练检查点，为研究人员提供了深入理解模型学习动态的机会。
Docker部署支持：提供官方Docker镜像，支持通过vLLM启动服务器，简化模型部署流程。
技术报告与文档：发布了详细的技术报告和文档，介绍了模型的架构设计、训练策略、数据处理流程等关键信息。

未来人文智能的深度探索：

dots.llm1的发布不仅是小红书在AI领域的一次重要突破，更是其对“人文智能”深度探索的体现。小红书Hi Lab团队表示，未来将继续优化模型性能，提升模型的人文素养和表现上的一致性，让AI成为人类自然且有益的伙伴。

结语

dots.llm1的开源标志着小红书在大型语言模型领域迈出了重要一步。其独特的MoE架构、海量高质量训练数据、卓越的性能表现以及高效的训练优化策略，为开源社区提供了宝贵的资源。随着技术的不断进步和社区的共同努力，dots.llm1有望在更多领域发挥重要作用，推动人工智能技术的进一步发展。

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

全部评论

暂无评论

dots.llm1

工具介绍

小红书dots.llm1模型是什么？

主要功能

模型架构：MoE与Transformer的深度融合

技术创新：

训练数据与处理：

性能表现：

训练效率与优化：

开源与社区贡献：

未来人文智能的深度探索：

结语

豆包AI官网

n1n.ai

爱派AiPy

畅图

秒哒

潮际好麦

星辰Agent

商汤小浣熊

dots.llm1

工具介绍

小红书dots.llm1模型是什么？

主要功能

模型架构：MoE与Transformer的深度融合

技术创新：

训练数据与处理：

性能表现：

训练效率与优化：

开源与社区贡献：

未来人文智能的深度探索：

结语

热门推荐

豆包AI官网

n1n.ai

爱派AiPy

畅图

秒哒

潮际好麦

星辰Agent

商汤小浣熊

相关推荐