LongCat-Flash-Thinking

LongCat-Flash-Thinking模型是美团推出的一款基于混合专家架构的大型推理模型，凭借其创新的混合专家架构与动态计算机制，在逻辑推理、数学运算、代码生成及智能体任务中展现出全球领先的性能，成为开源社区中首个同时具备深度思考+工具调用与非形式化+形式化推理能力里程碑式模型。

工具标签：

# AI大模型

直达网站

工具介绍

美团LongCat-Flash-Thinking是什么？

LongCat-Flash-Thinking（以下简称LFT）模型是美团LongCat团队推出的一款基于混合专家架构的大型推理模型，凭借其创新的混合专家架构（MoE）与动态计算机制，在逻辑推理、数学运算、代码生成及智能体任务中展现出全球领先的性能，成为开源社区中首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力的里程碑式模型。

模型参数：

LFT基于MoE架构构建，总参数量达5600亿，但通过上下文感知动态计算机制，仅需激活186亿至313亿参数（平均约270亿）即可完成复杂任务，激活率仅4.8%。这一设计突破了传统大模型“参数规模与计算成本正相关”的瓶颈，实现了“更智能、更经济”的目标。例如，在AIME25数学基准测试中，LFT使用原生工具调用可将Token消耗减少64.5%，同时保持顶级准确率；在LiveCodeBench编程测试中，其性能与闭源模型GPT-5持平，但推理速度提升3倍。

核心特点：

1. 动态计算与零计算专家（Zero-computation Experts）

LFT通过快捷连接MoE（ScMoE）架构，将计算与通信重叠窗口扩大3倍，显著提升推理吞吐量。
零计算专家机制可智能跳过非关键输入（如标点、停用词），直接返回原文，减少无效计算。例如，在处理长文本时，该机制可降低30%的推理延迟。

2. 双路径推理框架

模型支持“深度思考+工具调用”与“非形式化+形式化”推理能力结合，成为国内首个具备此类能力的开源模型。
在智能体任务中，LFT可自主调用外部工具（如计算器、数据库、API），完成复杂任务编排。例如，在τ²-Bench基准测试中，其得分达74.0，刷新开源SOTA纪录。

3. 课程学习与多阶段训练

预训练阶段采用课程学习策略，先构建基础能力，再通过中期训练（Mid-training）强化逻辑推理，最后通过有监督微调（SFT）优化指令遵循与安全性。
训练数据涵盖数学、物理、化学及编程问题，确保模型在专项突破的同时不丢失通用能力。

模型性能：

1. 数学推理：接近满分水平

MATH-500测试：得分99.2%，几乎达到理论极限。
AIME25测试：在保证90%准确率的前提下，使用工具后Token消耗减少64.5%，效率远超其他模型。
HMMT与AIME相关基准：超越OpenAI o3，与Qwen3-235B-A22B-Thinking等领先模型持平。

2. 代码生成：紧追GPT-5

LiveCodeBench编程测试：得分79.4，显著超越其他开源模型，与GPT-5表现相当。
OJBench基准测试：得分40.7，接近Gemini2.5-Pro水平，证明其解决高难度编程竞赛问题的能力。

3. 通用推理：超越闭源模型

ARC-AGI基准测试：得分50.3，超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。
ZebraLogic解谜任务：得分95.5%，展现强大的结构化推理能力。

4. 形式化定理证明：绝对领先

MiniF2F-test基准测试：pass@1达67.6%，比次优模型高出18%，在pass@8和pass@32中同样保持领先，凸显其在生成结构化证明和形式化数学推理方面的优势。

技术优势：

1. 高效训练与推理

在数万张加速卡上，LFT的RL训练速度达到传统同步方式的3倍以上，FLOPs投入仅为预训练阶段的20%。
通过改良PPO算法（引入截断重要性采样与裁剪机制），解决异步训练中的数值差异问题，提升稳定性。

2. 安全性与指令遵循

在有害内容、犯罪、虚假信息及隐私四类风险测试中均拿下最高分，确保模型在开放场景中的可靠性。
训练了判别式奖励模型（基于人机联合标注数据）和生成式奖励模型（GenRM），在数学与编程任务中实现“有理有据”的反馈。

应用场景：

1. 智能体开发

LFT的智能体工具调用能力可应用于自动化客服、任务编排、实时决策等场景。例如，在美团本地生活服务中，模型可优化配送链路、商户信息处理及库存管理。

2. 科研与教育

在数学、物理、化学等领域，LFT可辅助科研人员快速验证假设、生成定理证明，或为学生提供个性化辅导。

3. 金融与医疗

结合形式化推理能力，LFT可应用于风险评估、合同审查、医疗诊断等高复杂度任务，提升决策准确性。

开源生态：

1. 全面开源策略

LFT的模型权重与代码已通过MIT许可证开源，支持自由修改、分发和商用。
官方提供HuggingFace、GitHub平台支持，并上线专属聊天网站（https://longcat.chat/），降低开发者使用门槛。

2. 开发者友好设计

提供详细的聊天模板、部署指南及分布式沙箱系统（支持20多种编程语言、数百万次并发代码执行），方便开发者快速集成与测试。

3. 生态共建目标

美团希望通过开源吸引全球开发者参与生态共建，探索更多应用场景（如AI搜索、面向消费者的Agent产品），反哺自身业务创新。

行业意义：

1. 技术自信的展示

LFT的开源证明了美团在MoE架构、动态计算及智能体推理领域的技术领导力，有助于吸引顶尖人才加入。

2. 推动“混合推理”趋势

与OpenAI GPT-5的“路由器”机制、DeepSeek V3.1的“双模架构”类似，LFT的“自适应计算”设计代表了行业前沿方向，即让模型根据任务复杂度动态分配资源。

3. 破解商业化难题

通过降低推理成本（如AIME25测试中Token消耗减少64.5%），LFT为大规模部署推理大模型提供了可行路径，加速AI从实验室走向真实场景。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

全部评论

暂无评论

LongCat-Flash-Thinking

工具介绍

美团LongCat-Flash-Thinking是什么？

模型参数：