dots.llm1
2900
0
0
dots.llm1是小红书Hi Lab研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务.
工具标签:
直达网站
工具介绍

小红书dots.llm1模型是什么?
dots.llm1是小红书Hi Lab(人文智能实验室)研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务。其开源力度堪称业界标杆,不仅公开了基础模型和指令微调模型,还开源了每1万亿token的中间训练检查点,为学术研究提供了宝贵资源。
主要功能
dots.llm1的核心功能涵盖自然语言处理(NLP)的多个关键领域:
- 语义理解:在CLUEWSC测试中得分92.6,超越DeepSeek-V3等模型,展现出对中文语境的深刻理解。
- 综合知识问答:C-Eval测试得分92.2,超越包括Qwen2.5-72B在内的所有对比模型,知识覆盖面广且准确度高。
- 数学推理:在AIME24竞赛题中得分33.1,MATH500数据集得分84.8,接近当前最先进水平。
- 代码生成:在HumanEval等代码基准测试中表现优异,支持Python、C++等多种编程语言的代码生成。
- 指令遵循:在IFEval、AlpacaEval2等测试中平均得分77.9,能够准确理解和执行复杂指令。
模型架构:MoE与Transformer的深度融合
dots.llm1采用单向解码器Transformer架构,将传统前馈网络(FFN)替换为MoE模块。其核心创新包括:
- 专家网络设计:模型包含128个路由专家和2个共享专家,每个专家为两层前馈网络,使用SwiGLU激活函数捕捉复杂关系。
- 动态路由机制:处理输入标记时,模型通过路由机制选择6个最相关的专家和2个共享专家,激活8个专家网络进行计算,显著降低算力需求。
- 负载平衡策略:引入无辅助损失的动态偏置项,确保所有专家网络的负载均衡,避免过度依赖某些专家。
- 注意力层优化:采用多头注意力机制(MHA)与QK标准化,并引入RMSNorm归一化操作,稳定模型训练和输出。
技术创新:
- 交错式通信与计算重叠:与NVIDIA合作提出基于1F1B的交错式通信和计算重叠方案,通过重叠前向和后向步骤中的通信与计算,显著提升训练效率。在稳态1F1B阶段,内存消耗显著降低,计算时间掩盖通信延迟。
- Grouped GEMM优化:优化分组通用矩阵乘法(GEMM)的实现,在H800 GPU上相比NVIDIA Transformer Engine,单算子前向计算平均提升14%,反向计算平均提升6.68%。
- WSD学习率调度:采用Warmup-Stable-Decay(WSD)学习率调度策略,主训练阶段使用10万亿token,学习率从0逐步warmup至3e-4后保持稳定,全程无严重loss spike,无需回滚。
- 动态batch size调整:训练期间两次提升batch size,从初始的64M增加到96M,最终达到128M,通过渐进式扩大batch来提升训练效率。
训练数据与处理:
dots.llm1的训练数据是其核心竞争力之一。模型使用了11.2万亿token的非合成高质量数据,这些数据经过严格的三级数据处理流水线:
- 文档准备:利用URL过滤技术屏蔽成人、赌博等有害域名,通过trafilatura库精准提取正文内容,借助fastText语言检测工具过滤低置信度文档,并采用MD5去重方法去除重复数据。
- 规则处理:通过行级去重、启发式过滤、MinHash-LSH模糊去重等操作,剔除广告、注册提示等低质内容,保留Jaccard相似度<80%的文档。
- 模型处理:运用15亿参数分类器区分网页类型,保留高价值内容;通过自主开发的网页杂波去除模型逐行评分,过滤掉导航栏、边框等无关内容;使用200类分类器平衡数据分布,将百科、科普等知识性内容占比提升至60%。
经过上述处理流程,dots.llm1的训练数据质量显著优于开源TxT360数据,在MMLU、TriviaQA等基准测试中表现优异。
性能表现:
在综合评测中,dots.llm1展现出了极高的效率:
- 中文任务表现:在CLUEWSC、C-Eval等中文基准测试中,dots.llm1以91.3的平均分超越DeepSeek-V2、V3和阿里Qwen2.5系列,成为中文处理能力的佼佼者。
- 数学能力:在AIME24竞赛题中得分33.1,MATH500得分84.8,超越Qwen2.5系列,接近最先进水平。
- 代码能力:在HumanEval等代码基准测试中,dots.llm1的平均得分达到65.0,与Qwen2.5的水平相当。
- 指令遵循与人类偏好对齐:在IFEval、AlpacaEval2、ArenaHard等测试中,dots.llm1的平均得分77.9,表明模型能准确理解和执行复杂指令。
尤为值得一提的是,dots.llm1在激活参数仅为140亿的情况下,在多个维度上超越或打平720亿参数的Qwen2.5-Instruct,证明了其架构设计的有效性。
训练效率与优化:
dots.llm1在训练效率上实现了显著突破:
- 资源消耗对比:在Qwen2.5 72B训练每万亿tokens需34万GPU小时的情况下,dots.llm1仅需13万GPU小时,训练资源不到Qwen2.5 72B的四分之一。
- 基础设施创新:基于交错式1F1B流水线调度技术,研发了创新的混合专家全互联通信与计算重叠方案,配合高效分组GEMM实现,显著提升计算效率。
- 开源中间检查点:每训练1万亿token即发布中间模型检查点,为大型语言模型学习机制研究提供宝贵资源,促进学术研究的进一步发展。
开源与社区贡献:
dots.llm1的开源力度堪称业界标杆:
- 模型与代码公开:代码和权重已在Hugging Face和GitHub上公开,开发者可轻松获取并使用。
- 中间检查点开源:开源了每1万亿token的中间训练检查点,为研究人员提供了深入理解模型学习动态的机会。
- Docker部署支持:提供官方Docker镜像,支持通过vLLM启动服务器,简化模型部署流程。
- 技术报告与文档:发布了详细的技术报告和文档,介绍了模型的架构设计、训练策略、数据处理流程等关键信息。
未来人文智能的深度探索:
dots.llm1的发布不仅是小红书在AI领域的一次重要突破,更是其对“人文智能”深度探索的体现。小红书Hi Lab团队表示,未来将继续优化模型性能,提升模型的人文素养和表现上的一致性,让AI成为人类自然且有益的伙伴。
结语
dots.llm1的开源标志着小红书在大型语言模型领域迈出了重要一步。其独特的MoE架构、海量高质量训练数据、卓越的性能表现以及高效的训练优化策略,为开源社区提供了宝贵的资源。随着技术的不断进步和社区的共同努力,dots.llm1有望在更多领域发挥重要作用,推动人工智能技术的进一步发展。
评论
全部评论

暂无评论
热门推荐
相关推荐

GPT-5
GPT-5是OpenAI最新发布的革命性大语言模型,提供GPT-5标准版、Mini版和Nano版三个版本。集成多模态能力、推理功能和验证器技术,支持免费使用,为用户提供更智能的AI对话、内容创作和编程辅助体验。
OmniTalker
OmniTalker是阿里通义实验室开发的一款基于深度学习和多模态融合技术的新型数字人视频生成大模型。它能够通过上传一段参考视频,实现对视频中人物的表情、声音和说话风格的精准模仿,从而生成高度逼真的数字人视频。
Sonic-3
Sonic-3是美国生成式AI公司Cartesia推出的第三代实时文本转语音(Real-time TTS)模型。它基于自研的State-Space序列架构,在保持极低保真延迟最低90ms的同时,首次在公开API中实现了情绪标签驱动的笑声、呼吸、停顿与多情感强度控制,被业内称为会笑会喊的大语言模型。
火山方舟
火山方舟是火山引擎旗下的大模型服务平台,定位为面向企业提供全面的模型即服务(MaaS,Model-as-a- Service)解决方案。它汇聚百川智能、出门问问、复旦大学MOSS、IDEA研究院、澜舟科技、MiniMax、智谱AI等多家 AI 科技公司及科研院所的大模型,打破模型资源分散的局面。
Lipsync-2
Lipsync-2是由Sync Labs公司推出的全球首个零-shot嘴型同步模型。在Ai视频技术发展的当下,嘴型同步技术对于提升视频的真实感和表现力至关重要。传统的嘴型同步技术往往需要大量的训练数据和针对特定演讲者的预训练,过程繁琐且效率低下而Lipsync-2的出现,打破了这一传统模式的束。
Fabric 1.0
VEED Fabric 1.0是VEED.IO 推出的全球首款AI会说话视频模型,它实现了从静态图像到动态叙事的重大跨越,仅需一张图片结合语音输入,就能生成最长1分钟、具备逼真唇形同步和自然面部表情的会话视频。该模型专为“talking head”视频设计,生成速度极快,成本大幅降低,还集成多种生态
AniSora
Bilibili(B站)的开源动漫视频生成模型AniSora是专为动漫视频生成设计的综合系统,该模型具备海量数据支持、时空掩码技术、专业评估体系三大核心优势,可一键生成多种动漫风格的视频内容,显著降低创作门槛并提升制作效率。
HiDream-I1
HiDream-I1是由千象HiDream ai(智象未来)团队打造的国产开源图像生成模型。它基于扩散模型技术,拥有17亿参数,这一规模在开源模型中颇具竞争力,能够依据文本描述生成高质量图像,为众多领域带来了全新的图像创作解决方案。
0
0






