
2026年3月24日,美团龙猫(LongCat)团队正式开源专门用于数学形式化与定理证明的深度学习模型——LongCat-Flash-Prover。该模型针对大语言模型在严密逻辑推演中的短板,实现了从"概率预测答案"向"严谨逻辑证明"的范式转变。
官网地址:美团LongCat官网
三大原子能力:拆解形式化推理
LongCat-Flash-Prover将形式化推理拆解为三大核心能力:
- 自动形式化:将自然语言描述的数学问题转化为形式化语言
- 草稿生成:构建证明的初步框架与思路
- 证明生成:输出完整、可验证的证明过程
在结合工具集成推理(TIR)策略下,该模型在MiniF2F-Test基准测试中仅需72次推理预算即可达到97.1%的通过率,刷新了开源Prover模型的SOTA纪录。此外,在MathOlympiad-Bench与PutnamBench等高难度竞赛级任务中,其表现亦全面超越现有开源模型。

技术亮点:解决逻辑漏洞与代码欺骗
技术层面,LongCat-Flash-Prover采用了基于TIR的"混合专家迭代"框架。通过集成:
- Lean4Server校验:确保证明过程的语法正确性
- 语义及定理一致性检测:排除逻辑矛盾
- 针对9种作弊行为的合法性验证:有效解决逻辑漏洞与代码欺骗问题
在训练阶段,团队引入分层Masking策略与Token层面Staleness控制,显著提升了MoE架构下强化学习的稳定性。
AI推理能力的范式转变
随着AI推理能力从自然语言模糊处理转向计算机可验证的形式化语言,此类Prover模型正逐渐超越算法跑分范式,转化为基础科学研究的**"底座设施"**。
这一突破预示着:AI深度参与前沿数学探索与文献自动化验证的时代正在加速到来。
项目已开源至GitHub与Hugging Face,技术报告同步发布。
- GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
- Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










