


dots.llm1
933
0
0
dots.llm1是小红书Hi Lab研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务.
工具标签:
直达网站

工具介绍
小红书dots.llm1模型是什么?
dots.llm1是小红书Hi Lab(人文智能实验室)研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务。其开源力度堪称业界标杆,不仅公开了基础模型和指令微调模型,还开源了每1万亿token的中间训练检查点,为学术研究提供了宝贵资源。
主要功能
dots.llm1的核心功能涵盖自然语言处理(NLP)的多个关键领域:
- 语义理解:在CLUEWSC测试中得分92.6,超越DeepSeek-V3等模型,展现出对中文语境的深刻理解。
- 综合知识问答:C-Eval测试得分92.2,超越包括Qwen2.5-72B在内的所有对比模型,知识覆盖面广且准确度高。
- 数学推理:在AIME24竞赛题中得分33.1,MATH500数据集得分84.8,接近当前最先进水平。
- 代码生成:在HumanEval等代码基准测试中表现优异,支持Python、C++等多种编程语言的代码生成。
- 指令遵循:在IFEval、AlpacaEval2等测试中平均得分77.9,能够准确理解和执行复杂指令。
模型架构:MoE与Transformer的深度融合
dots.llm1采用单向解码器Transformer架构,将传统前馈网络(FFN)替换为MoE模块。其核心创新包括:
- 专家网络设计:模型包含128个路由专家和2个共享专家,每个专家为两层前馈网络,使用SwiGLU激活函数捕捉复杂关系。
- 动态路由机制:处理输入标记时,模型通过路由机制选择6个最相关的专家和2个共享专家,激活8个专家网络进行计算,显著降低算力需求。
- 负载平衡策略:引入无辅助损失的动态偏置项,确保所有专家网络的负载均衡,避免过度依赖某些专家。
- 注意力层优化:采用多头注意力机制(MHA)与QK标准化,并引入RMSNorm归一化操作,稳定模型训练和输出。
技术创新:
- 交错式通信与计算重叠:与NVIDIA合作提出基于1F1B的交错式通信和计算重叠方案,通过重叠前向和后向步骤中的通信与计算,显著提升训练效率。在稳态1F1B阶段,内存消耗显著降低,计算时间掩盖通信延迟。
- Grouped GEMM优化:优化分组通用矩阵乘法(GEMM)的实现,在H800 GPU上相比NVIDIA Transformer Engine,单算子前向计算平均提升14%,反向计算平均提升6.68%。
- WSD学习率调度:采用Warmup-Stable-Decay(WSD)学习率调度策略,主训练阶段使用10万亿token,学习率从0逐步warmup至3e-4后保持稳定,全程无严重loss spike,无需回滚。
- 动态batch size调整:训练期间两次提升batch size,从初始的64M增加到96M,最终达到128M,通过渐进式扩大batch来提升训练效率。
训练数据与处理:
dots.llm1的训练数据是其核心竞争力之一。模型使用了11.2万亿token的非合成高质量数据,这些数据经过严格的三级数据处理流水线:
- 文档准备:利用URL过滤技术屏蔽成人、赌博等有害域名,通过trafilatura库精准提取正文内容,借助fastText语言检测工具过滤低置信度文档,并采用MD5去重方法去除重复数据。
- 规则处理:通过行级去重、启发式过滤、MinHash-LSH模糊去重等操作,剔除广告、注册提示等低质内容,保留Jaccard相似度<80%的文档。
- 模型处理:运用15亿参数分类器区分网页类型,保留高价值内容;通过自主开发的网页杂波去除模型逐行评分,过滤掉导航栏、边框等无关内容;使用200类分类器平衡数据分布,将百科、科普等知识性内容占比提升至60%。
经过上述处理流程,dots.llm1的训练数据质量显著优于开源TxT360数据,在MMLU、TriviaQA等基准测试中表现优异。
性能表现:
在综合评测中,dots.llm1展现出了极高的效率:
- 中文任务表现:在CLUEWSC、C-Eval等中文基准测试中,dots.llm1以91.3的平均分超越DeepSeek-V2、V3和阿里Qwen2.5系列,成为中文处理能力的佼佼者。
- 数学能力:在AIME24竞赛题中得分33.1,MATH500得分84.8,超越Qwen2.5系列,接近最先进水平。
- 代码能力:在HumanEval等代码基准测试中,dots.llm1的平均得分达到65.0,与Qwen2.5的水平相当。
- 指令遵循与人类偏好对齐:在IFEval、AlpacaEval2、ArenaHard等测试中,dots.llm1的平均得分77.9,表明模型能准确理解和执行复杂指令。
尤为值得一提的是,dots.llm1在激活参数仅为140亿的情况下,在多个维度上超越或打平720亿参数的Qwen2.5-Instruct,证明了其架构设计的有效性。
训练效率与优化:
dots.llm1在训练效率上实现了显著突破:
- 资源消耗对比:在Qwen2.5 72B训练每万亿tokens需34万GPU小时的情况下,dots.llm1仅需13万GPU小时,训练资源不到Qwen2.5 72B的四分之一。
- 基础设施创新:基于交错式1F1B流水线调度技术,研发了创新的混合专家全互联通信与计算重叠方案,配合高效分组GEMM实现,显著提升计算效率。
- 开源中间检查点:每训练1万亿token即发布中间模型检查点,为大型语言模型学习机制研究提供宝贵资源,促进学术研究的进一步发展。
开源与社区贡献:
dots.llm1的开源力度堪称业界标杆:
- 模型与代码公开:代码和权重已在Hugging Face和GitHub上公开,开发者可轻松获取并使用。
- 中间检查点开源:开源了每1万亿token的中间训练检查点,为研究人员提供了深入理解模型学习动态的机会。
- Docker部署支持:提供官方Docker镜像,支持通过vLLM启动服务器,简化模型部署流程。
- 技术报告与文档:发布了详细的技术报告和文档,介绍了模型的架构设计、训练策略、数据处理流程等关键信息。
未来人文智能的深度探索:
dots.llm1的发布不仅是小红书在AI领域的一次重要突破,更是其对“人文智能”深度探索的体现。小红书Hi Lab团队表示,未来将继续优化模型性能,提升模型的人文素养和表现上的一致性,让AI成为人类自然且有益的伙伴。
结语
dots.llm1的开源标志着小红书在大型语言模型领域迈出了重要一步。其独特的MoE架构、海量高质量训练数据、卓越的性能表现以及高效的训练优化策略,为开源社区提供了宝贵的资源。随着技术的不断进步和社区的共同努力,dots.llm1有望在更多领域发挥重要作用,推动人工智能技术的进一步发展。
评论

全部评论

暂无评论
热门推荐
相关推荐
liblibAI
Liblib社区,也被称为哩布哩布AI,是一个专注于AI绘画的原创模型分享社区。它由北京奇点星宇科技有限公司提供,致力于激发原创AI模型和素材的创作。在这个平台上,用户可以找到最新、最热门的模型素材,并且可以免费下载超过10万个原创模型。EVI3
EVI3是Hume公司在2025年5月29日正式发布全新语音语言模型,这一创新标志着通用语音智能领域进入的发展阶段。作为全球首个突破传统文本到语音(TTS)技术框架的语音到语音(V2S)模型,EVI3不仅重新定义了语音交互的边界,更通过多模态情感计算能力为AI语音技术树立了新的技术标杆。豆包AI官网
豆包AI(doubao)是字节跳动开发的AI智能助手,能通过文字与用户互动,提供聊天、知识解答、创意内容生成等服务,像回消息、解数学题、写文案都不在话下。它基于先进技术,持续优化以理解用户需求,为大家带来便捷的智能交互体验,是日常生活和工作中可信赖的AI助手。天工AI大模型
昆仑万维天工AI大模型是昆仑万维集团自主研发的一系列大型语言模型(LLMs),旨在通过先进的自然语言处理和深度学习技术,为用户提供高效、智能的服务和体验。该系列模型不仅具备强大的语言理解和生成能力,还广泛应用于教育、企业客服、新闻媒体、创意产业、医疗、法律咨询、金融服务等多个行业。Sec-Gemini v1
Sec-Gemini v1是谷歌基于其Gemini模型构建的一款全新AI安全模型。它集成了Gemini的先进推理能力,并结合了近乎实时的网络安全知识和工具,旨在帮助网络安全专业人员更有效地应对网络威胁,提升威胁情报分析、漏洞理解和事件响应的效率。CivitAI - AI模型训练社区
CivitAI是一个专注于人工智能模型训练的平台,旨在为开发者、数据科学家和企业提供一个高效、可扩展的环境,以训练和部署机器学习模型MiMo-7B
MiMo-7B是小米AI实验室发布的首个专为推理(Reasoning)设计的开源大模型,该模型以7亿参数的轻量化架构,结合强化学习优化,展现了在数学、代码和通用推理任务上的卓越性能,甚至超越了多个32亿参数以上的基线模型。天工开放平台
天工开放平台,作为一家综合性技术平台,致力于提供多样化的服务和产品,以促进技术的创新和应用的发展。该平台涵盖了天工AI搜索、天工3.0大模型、搜索引擎服务,AI写作、AI陪伴以及AI音乐产品等多个领域,充分展示了其在人工智能行业的深远影响。
0
0