美团龙猫开源LongCat-Flash-Prover：数学定理证明模型刷新SOTA纪录

美团龙猫开源LongCat-Flash-Prover：数学定理证明模型刷新SOTA纪录

2026-03-24 16:07:16

美团龙猫开源LongCat-Flash-Prover

2026年3月24日，美团龙猫（LongCat）团队正式开源专门用于数学形式化与定理证明的深度学习模型——LongCat-Flash-Prover。该模型针对大语言模型在严密逻辑推演中的短板，实现了从"概率预测答案"向"严谨逻辑证明"的范式转变。

官网地址：美团LongCat官网

三大原子能力：拆解形式化推理

LongCat-Flash-Prover将形式化推理拆解为三大核心能力：

自动形式化：将自然语言描述的数学问题转化为形式化语言
草稿生成：构建证明的初步框架与思路
证明生成：输出完整、可验证的证明过程

在结合工具集成推理（TIR）策略下，该模型在MiniF2F-Test基准测试中仅需72次推理预算即可达到97.1%的通过率，刷新了开源Prover模型的SOTA纪录。此外，在MathOlympiad-Bench与PutnamBench等高难度竞赛级任务中，其表现亦全面超越现有开源模型。

美团龙猫开源LongCat-Flash-Prover

技术亮点：解决逻辑漏洞与代码欺骗

技术层面，LongCat-Flash-Prover采用了基于TIR的"混合专家迭代"框架。通过集成：

Lean4Server校验：确保证明过程的语法正确性
语义及定理一致性检测：排除逻辑矛盾
针对9种作弊行为的合法性验证：有效解决逻辑漏洞与代码欺骗问题

在训练阶段，团队引入分层Masking策略与Token层面Staleness控制，显著提升了MoE架构下强化学习的稳定性。

AI推理能力的范式转变

随着AI推理能力从自然语言模糊处理转向计算机可验证的形式化语言，此类Prover模型正逐渐超越算法跑分范式，转化为基础科学研究的**"底座设施"**。

这一突破预示着：AI深度参与前沿数学探索与文献自动化验证的时代正在加速到来。

项目已开源至GitHub与Hugging Face，技术报告同步发布。

GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码 AI大赛社群二维码

0

0

文章来源：AI TOP100

免责声明：本文不代表本平台立场，且不构成投资建议，请谨慎对待。

全部评论

暂无评论

相关AI工具

美团LongCat

热点资讯

每日AI资讯-2026年6月22日

每日AI资讯-2026年6月22日

一夜用了多少Token，谁能说清？

一夜用了多少Token，谁能说清？

AI内容共创计划5月奖励公示｜12篇原创扎实上线，质量导向解锁更高积分福利！

AI内容共创计划5月奖励公示｜12篇原创扎实上线，质量导向解锁更高积分福利！

GPT-5.6发布窗口锁定：150万Token上下文重塑AI Agent竞争格局

GPT-5.6发布窗口锁定：150万Token上下文重塑AI Agent竞争格局

字节火山引擎FORCE原动力大会开幕：豆包付费会员体系全面上线，字节AI商业化按下加速键

字节火山引擎FORCE原动力大会开幕：豆包付费会员体系全面上线，字节AI商业化按下加速键

分享

0

0

欢迎来到AI Top100！我们聚合全球500+款AI智能软件，提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台，让您轻松了解全球AI领域动态，并为您提供优质服务。

合作伙伴

联系我们

加入AITOP100社群

加入社群

AITOP100商务微信

商务微信

相关链接

服务及隐私政策