美团LongCat-Flash-Thinking-2601震撼开源：工具调用与推理能力双突破-AITOP100,AI资讯

美团LongCat团队发布全新开源AI模型，引领开源社区新潮流

今日，美团旗下的 LongCat 团队正式宣布推出并开源其最新力作——LongCat-Flash-Thinking-2601。作为 LongCat-Flash-Thinking 系列的升级版本，这一模型在智能体搜索、工具调用以及推理能力等多个核心评测基准上，均达到了当前开源模型的顶尖水平（SOTA），无疑为开源社区注入了一股强劲的新动力。

美团LongCat-Flash-Thinking-2601

卓越工具调用能力，降低新工具适配成本

LongCat-Flash-Thinking-2601 的核心亮点在于其出色的工具调用能力。在面对依赖工具的复杂任务时，该模型展现出了非凡的适应性和灵活性，能够迅速理解并调用合适的工具完成任务。

这一特性不仅显著提升了模型在真实场景中的应用价值，还大幅降低了对新工具进行适配训练的成本，为开发者提供了更为便捷、高效的开发体验。

“重思考模式”首次开源，模拟人类深思熟虑过程

值得一提的是，LongCat-Flash-Thinking-2601还首次以开源形式提供了“重思考模式”的在线免费体验。用户只需访问longcat网站，即可亲身感受这一创新模式的魅力。

在该模式下，模型模拟了人类深思熟虑的过程，将思考分为并行思考和总结归纳两个阶段。这种分阶段的思考方式确保了思维的全面性和决策的可靠性，为用户提供了更为精准、可靠的推理结果。

多项评测指标优异，编程数学推理能力突出

经过严格的评估和测试，LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用及搜索能力等多个方面均表现卓越。在编程能力方面，该模型在LCB评测中获得了高达82.8分的优异成绩，位居同类模型前列；在数学推理方面，该模型在 AIME-25 评测中更是斩获满分 100 分，进一步巩固了其在该领域的领先地位。

美团LongCat-Flash-Thinking-2601

创新评测方法验证泛化能力，随机任务表现领先

为了全面评估模型的泛化能力，LongCat 团队还提出了一种全新的评测方法。该方法利用自动化任务合成流程，支持用户基于关键词随机生成复杂任务，并评估模型在此类环境中的表现。实验结果表明，LongCat-Flash-Thinking-2601在多项随机生成的任务中均保持了领先的表现，充分证明了其强大的泛化能力和适应性。