美团LongCat
1.02w
0
0
LongCat-Flash-Thinking模型是美团推出的一款基于混合专家架构的大型推理模型,凭借其创新的混合专家架构与动态计算机制,在逻辑推理、数学运算、代码生成及智能体任务中展现出全球领先的性能,成为开源社区中首个同时具备深度思考+工具调用与非形式化+形式化推理能力里程碑式模型。
工具标签:
直达网站
工具介绍

美团LongCat-Flash-Thinking是什么?
LongCat-Flash-Thinking(以下简称LFT)模型是美团LongCat团队推出的一款基于混合专家架构的大型推理模型,凭借其创新的混合专家架构(MoE)与动态计算机制,在逻辑推理、数学运算、代码生成及智能体任务中展现出全球领先的性能,成为开源社区中首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力的里程碑式模型。
模型参数:
LFT基于MoE架构构建,总参数量达5600亿,但通过上下文感知动态计算机制,仅需激活186亿至313亿参数(平均约270亿)即可完成复杂任务,激活率仅4.8%。这一设计突破了传统大模型“参数规模与计算成本正相关”的瓶颈,实现了“更智能、更经济”的目标。例如,在AIME25数学基准测试中,LFT使用原生工具调用可将Token消耗减少64.5%,同时保持顶级准确率;在LiveCodeBench编程测试中,其性能与闭源模型GPT-5持平,但推理速度提升3倍。
核心特点:
1. 动态计算与零计算专家(Zero-computation Experts)
- LFT通过快捷连接MoE(ScMoE)架构,将计算与通信重叠窗口扩大3倍,显著提升推理吞吐量。
- 零计算专家机制可智能跳过非关键输入(如标点、停用词),直接返回原文,减少无效计算。例如,在处理长文本时,该机制可降低30%的推理延迟。
2. 双路径推理框架
- 模型支持“深度思考+工具调用”与“非形式化+形式化”推理能力结合,成为国内首个具备此类能力的开源模型。
- 在智能体任务中,LFT可自主调用外部工具(如计算器、数据库、API),完成复杂任务编排。例如,在τ²-Bench基准测试中,其得分达74.0,刷新开源SOTA纪录。
3. 课程学习与多阶段训练
- 预训练阶段采用课程学习策略,先构建基础能力,再通过中期训练(Mid-training)强化逻辑推理,最后通过有监督微调(SFT)优化指令遵循与安全性。
- 训练数据涵盖数学、物理、化学及编程问题,确保模型在专项突破的同时不丢失通用能力。
模型性能:
1. 数学推理:接近满分水平
- MATH-500测试:得分99.2%,几乎达到理论极限。
- AIME25测试:在保证90%准确率的前提下,使用工具后Token消耗减少64.5%,效率远超其他模型。
- HMMT与AIME相关基准:超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型持平。
2. 代码生成:紧追GPT-5
- LiveCodeBench编程测试:得分79.4,显著超越其他开源模型,与GPT-5表现相当。
- OJBench基准测试:得分40.7,接近Gemini2.5-Pro水平,证明其解决高难度编程竞赛问题的能力。
3. 通用推理:超越闭源模型
- ARC-AGI基准测试:得分50.3,超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。
- ZebraLogic解谜任务:得分95.5%,展现强大的结构化推理能力。
4. 形式化定理证明:绝对领先
- MiniF2F-test基准测试:pass@1达67.6%,比次优模型高出18%,在pass@8和pass@32中同样保持领先,凸显其在生成结构化证明和形式化数学推理方面的优势。
技术优势:
1. 高效训练与推理
- 在数万张加速卡上,LFT的RL训练速度达到传统同步方式的3倍以上,FLOPs投入仅为预训练阶段的20%。
- 通过改良PPO算法(引入截断重要性采样与裁剪机制),解决异步训练中的数值差异问题,提升稳定性。
2. 安全性与指令遵循
- 在有害内容、犯罪、虚假信息及隐私四类风险测试中均拿下最高分,确保模型在开放场景中的可靠性。
- 训练了判别式奖励模型(基于人机联合标注数据)和生成式奖励模型(GenRM),在数学与编程任务中实现“有理有据”的反馈。
应用场景:
1. 智能体开发
- LFT的智能体工具调用能力可应用于自动化客服、任务编排、实时决策等场景。例如,在美团本地生活服务中,模型可优化配送链路、商户信息处理及库存管理。
2. 科研与教育
- 在数学、物理、化学等领域,LFT可辅助科研人员快速验证假设、生成定理证明,或为学生提供个性化辅导。
3. 金融与医疗
- 结合形式化推理能力,LFT可应用于风险评估、合同审查、医疗诊断等高复杂度任务,提升决策准确性。
开源生态:
1. 全面开源策略
- LFT的模型权重与代码已通过MIT许可证开源,支持自由修改、分发和商用。
- 官方提供HuggingFace、GitHub平台支持,并上线专属聊天网站(https://longcat.chat/),降低开发者使用门槛。
2. 开发者友好设计
- 提供详细的聊天模板、部署指南及分布式沙箱系统(支持20多种编程语言、数百万次并发代码执行),方便开发者快速集成与测试。
3. 生态共建目标
- 美团希望通过开源吸引全球开发者参与生态共建,探索更多应用场景(如AI搜索、面向消费者的Agent产品),反哺自身业务创新。
行业意义:
1. 技术自信的展示
- LFT的开源证明了美团在MoE架构、动态计算及智能体推理领域的技术领导力,有助于吸引顶尖人才加入。
2. 推动“混合推理”趋势
- 与OpenAI GPT-5的“路由器”机制、DeepSeek V3.1的“双模架构”类似,LFT的“自适应计算”设计代表了行业前沿方向,即让模型根据任务复杂度动态分配资源。
3. 破解商业化难题
- 通过降低推理成本(如AIME25测试中Token消耗减少64.5%),LFT为大规模部署推理大模型提供了可行路径,加速AI从实验室走向真实场景。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking是谷歌推出的一款具有推理能力的智能助手模型,它基于先进的人工智能技术开发,旨在加速和简化复杂的思考过程。该模型不仅继承了Gemini 2.0系列的强大功能,还通过特别训练,能够在回答问题时展示其“思考过程”,为用户提供更深入、更透明的分析体验。
ChatOne
ChatOne是一款由深圳市奇思妙物科技有限公司开发的AI大模型聚合平台,整合国内外主流AI模型(如GPT-4、文心一言等),提供多场景智能交互服务。其核心定位为“一站式AI生产力工具”,通过自然语言交互实现内容创作、知识管理、客服自动化等功能,旨在降低AI技术使用门槛,提升个人与企业效率。
Nes2Net
Nes2Net是专为语音防伪检测量身打造的深度学习模型架构,它直接处理高维特征以避免信息损失,通过独特的嵌套结构实现多层次、多粒度的特征交互,具备无降维处理、多尺度特征提取、轻量化设计以及强鲁棒性与泛化能力等特点,能有效识别多种伪造声音类型,在提升检测精度的同时降低计算成本。
Fabric 1.0
VEED Fabric 1.0是VEED.IO 推出的全球首款AI会说话视频模型,它实现了从静态图像到动态叙事的重大跨越,仅需一张图片结合语音输入,就能生成最长1分钟、具备逼真唇形同步和自然面部表情的会话视频。该模型专为“talking head”视频设计,生成速度极快,成本大幅降低,还集成多种生态
Amazon Bedrock
Amazon Bedrock是亚马逊云科技推出的全球最大AI模型平台,属于完全托管服务。它就像一个“AI模型超市”,通过单个API,把AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI和亚马逊自家等领先人工智能公司的高性能基础模型汇聚在一起
F-Lite
F-Lite是一款基于扩散变换器架构的文本到图像生成模型,由Black Forest Labs开发并于2025年最高1024x1024图像,并具备开源特性,适用于正式登陆Hugging Face平台。该模型以10亿参数的轻量化设计,实现了高效、低成本的图像生成能力,支持通过自然语言提示生成高分辨率
Llama
Meta Llama模型是Meta研发的大型语言模型系列,它基于先进的深度学习架构,旨在处理和理解自然语言。Llama模型以其强大的语言处理能力和广泛的应用场景,成为了AI领域的一款全能选手。无论是文本生成、语言理解,还是多模态交互,Llama模型都能展现出其卓越的性能。
Lipsync-2
Lipsync-2是由Sync Labs公司推出的全球首个零-shot嘴型同步模型。在Ai视频技术发展的当下,嘴型同步技术对于提升视频的真实感和表现力至关重要。传统的嘴型同步技术往往需要大量的训练数据和针对特定演讲者的预训练,过程繁琐且效率低下而Lipsync-2的出现,打破了这一传统模式的束。
0
0






