


工具描述
dots.llm1是小红书Hi Lab研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务.
工具介绍
小红书dots.llm1模型是什么?
dots.llm1是小红书Hi Lab(人文智能实验室)研发的1420亿参数专家混合模型(MoE),采用稀疏激活架构,推理时仅激活140亿参数。这一设计在保持高性能的同时,大幅降低了训练和推理成本。模型支持中英双语,上下文长度达32,768个token,适用于语义理解、知识问答、代码生成等多场景任务。其开源力度堪称业界标杆,不仅公开了基础模型和指令微调模型,还开源了每1万亿token的中间训练检查点,为学术研究提供了宝贵资源。
主要功能
dots.llm1的核心功能涵盖自然语言处理(NLP)的多个关键领域:
- 语义理解:在CLUEWSC测试中得分92.6,超越DeepSeek-V3等模型,展现出对中文语境的深刻理解。
- 综合知识问答:C-Eval测试得分92.2,超越包括Qwen2.5-72B在内的所有对比模型,知识覆盖面广且准确度高。
- 数学推理:在AIME24竞赛题中得分33.1,MATH500数据集得分84.8,接近当前最先进水平。
- 代码生成:在HumanEval等代码基准测试中表现优异,支持Python、C++等多种编程语言的代码生成。
- 指令遵循:在IFEval、AlpacaEval2等测试中平均得分77.9,能够准确理解和执行复杂指令。
模型架构:MoE与Transformer的深度融合
dots.llm1采用单向解码器Transformer架构,将传统前馈网络(FFN)替换为MoE模块。其核心创新包括:
- 专家网络设计:模型包含128个路由专家和2个共享专家,每个专家为两层前馈网络,使用SwiGLU激活函数捕捉复杂关系。
- 动态路由机制:处理输入标记时,模型通过路由机制选择6个最相关的专家和2个共享专家,激活8个专家网络进行计算,显著降低算力需求。
- 负载平衡策略:引入无辅助损失的动态偏置项,确保所有专家网络的负载均衡,避免过度依赖某些专家。
- 注意力层优化:采用多头注意力机制(MHA)与QK标准化,并引入RMSNorm归一化操作,稳定模型训练和输出。
技术创新:
- 交错式通信与计算重叠:与NVIDIA合作提出基于1F1B的交错式通信和计算重叠方案,通过重叠前向和后向步骤中的通信与计算,显著提升训练效率。在稳态1F1B阶段,内存消耗显著降低,计算时间掩盖通信延迟。
- Grouped GEMM优化:优化分组通用矩阵乘法(GEMM)的实现,在H800 GPU上相比NVIDIA Transformer Engine,单算子前向计算平均提升14%,反向计算平均提升6.68%。
- WSD学习率调度:采用Warmup-Stable-Decay(WSD)学习率调度策略,主训练阶段使用10万亿token,学习率从0逐步warmup至3e-4后保持稳定,全程无严重loss spike,无需回滚。
- 动态batch size调整:训练期间两次提升batch size,从初始的64M增加到96M,最终达到128M,通过渐进式扩大batch来提升训练效率。
训练数据与处理:
dots.llm1的训练数据是其核心竞争力之一。模型使用了11.2万亿token的非合成高质量数据,这些数据经过严格的三级数据处理流水线:
- 文档准备:利用URL过滤技术屏蔽成人、赌博等有害域名,通过trafilatura库精准提取正文内容,借助fastText语言检测工具过滤低置信度文档,并采用MD5去重方法去除重复数据。
- 规则处理:通过行级去重、启发式过滤、MinHash-LSH模糊去重等操作,剔除广告、注册提示等低质内容,保留Jaccard相似度<80%的文档。
- 模型处理:运用15亿参数分类器区分网页类型,保留高价值内容;通过自主开发的网页杂波去除模型逐行评分,过滤掉导航栏、边框等无关内容;使用200类分类器平衡数据分布,将百科、科普等知识性内容占比提升至60%。
经过上述处理流程,dots.llm1的训练数据质量显著优于开源TxT360数据,在MMLU、TriviaQA等基准测试中表现优异。
性能表现:
在综合评测中,dots.llm1展现出了极高的效率:
- 中文任务表现:在CLUEWSC、C-Eval等中文基准测试中,dots.llm1以91.3的平均分超越DeepSeek-V2、V3和阿里Qwen2.5系列,成为中文处理能力的佼佼者。
- 数学能力:在AIME24竞赛题中得分33.1,MATH500得分84.8,超越Qwen2.5系列,接近最先进水平。
- 代码能力:在HumanEval等代码基准测试中,dots.llm1的平均得分达到65.0,与Qwen2.5的水平相当。
- 指令遵循与人类偏好对齐:在IFEval、AlpacaEval2、ArenaHard等测试中,dots.llm1的平均得分77.9,表明模型能准确理解和执行复杂指令。
尤为值得一提的是,dots.llm1在激活参数仅为140亿的情况下,在多个维度上超越或打平720亿参数的Qwen2.5-Instruct,证明了其架构设计的有效性。
训练效率与优化:
dots.llm1在训练效率上实现了显著突破:
- 资源消耗对比:在Qwen2.5 72B训练每万亿tokens需34万GPU小时的情况下,dots.llm1仅需13万GPU小时,训练资源不到Qwen2.5 72B的四分之一。
- 基础设施创新:基于交错式1F1B流水线调度技术,研发了创新的混合专家全互联通信与计算重叠方案,配合高效分组GEMM实现,显著提升计算效率。
- 开源中间检查点:每训练1万亿token即发布中间模型检查点,为大型语言模型学习机制研究提供宝贵资源,促进学术研究的进一步发展。
开源与社区贡献:
dots.llm1的开源力度堪称业界标杆:
- 模型与代码公开:代码和权重已在Hugging Face和GitHub上公开,开发者可轻松获取并使用。
- 中间检查点开源:开源了每1万亿token的中间训练检查点,为研究人员提供了深入理解模型学习动态的机会。
- Docker部署支持:提供官方Docker镜像,支持通过vLLM启动服务器,简化模型部署流程。
- 技术报告与文档:发布了详细的技术报告和文档,介绍了模型的架构设计、训练策略、数据处理流程等关键信息。
未来人文智能的深度探索:
dots.llm1的发布不仅是小红书在AI领域的一次重要突破,更是其对“人文智能”深度探索的体现。小红书Hi Lab团队表示,未来将继续优化模型性能,提升模型的人文素养和表现上的一致性,让AI成为人类自然且有益的伙伴。
结语
dots.llm1的开源标志着小红书在大型语言模型领域迈出了重要一步。其独特的MoE架构、海量高质量训练数据、卓越的性能表现以及高效的训练优化策略,为开源社区提供了宝贵的资源。随着技术的不断进步和社区的共同努力,dots.llm1有望在更多领域发挥重要作用,推动人工智能技术的进一步发展。
评论

全部评论

暂无评论
热门推荐
相关推荐
魔多:AI创作生态社区
魔多AI社区是厚德云旗下一个专为AI创作者打造的趣玩社区,集算力GPU云服务器、模型与镜像分享、在线工作流、在线模型训练、算力激励等为一体的AI创作生态社区通义千问:阿里云超大规模语言模型
阿里通义千问是阿里云自主研发的超大规模语言模型,它经过海量数据训练,具备跨领域的知识和语言理解能力。无论是知识问答、学习辅导,还是技术咨询、创作辅助,通义千问都能提供全面、准确的信息和答案。在教育辅导、客户服务、内容创作与编辑等多个领域,通义千问都展现出了其强大的应用价值CivitAI - AI模型训练社区
CivitAI是一个专注于人工智能模型训练的平台,旨在为开发者、数据科学家和企业提供一个高效、可扩展的环境,以训练和部署机器学习模型QwQ-32B:阿里巴巴开源大型语言模型
QwQ-32B是阿里巴巴旗下的Qwen团队最新推出的一款开源大型语言模型(LLM)。这款模型拥有320亿参数,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。QwQ-32B继承了前代模型在数学和编码任务中的出色表现,并通过进一步的技术优化和创新,成为了推理AI领域的重要竞争者。Hugging Face:全球大模型开放平台
Hugging Face成立于2016年,作为全球大模型领域举足轻重的开放平台,最初以开发聊天机器人起步,怀揣着让人工智能技术惠及大众的愿景,逐渐转型为专注于开源人工智能,尤其是自然语言处理(NLP)技术,发展至今,它已构建起涵盖模型、工具、数据集以及活跃社区的庞大生态体系。DeepSeek:深度求索AI大模型
DeepSeek是由幻方量化于2023年4月创立的一家AI公司,专注于开发高性能的大语言模型。DeepSeek的DeepSeekChat已经通过了北京市生成式人工智能服务备案,并计划向公众开放服务。火山方舟:火山引擎AI大模型服务平台
火山方舟是火山引擎旗下的大模型服务平台,定位为面向企业提供全面的模型即服务(MaaS,Model-as-a- Service)解决方案。它汇聚百川智能、出门问问、复旦大学MOSS、IDEA研究院、澜舟科技、MiniMax、智谱AI等多家 AI 科技公司及科研院所的大模型,打破模型资源分散的局面。豆包AI官网:字节跳动免费AI聊天机器人 | 中文AI智能助手下载
豆包AI(doubao)是字节跳动开发的AI智能助手,能通过文字与用户互动,提供聊天、知识解答、创意内容生成等服务,像回消息、解数学题、写文案都不在话下。它基于先进技术,持续优化以理解用户需求,为大家带来便捷的智能交互体验,是日常生活和工作中可信赖的AI助手。
0
0