美团龙猫发布开源数学定理证明模型 LongCat-Flash-Prover

AIBase
个人专栏
热度: 3744

美团龙猫团队开源数学形式化与定理证明模型LongCat-Flash-Prover,通过自动形式化、草稿生成和证明生成三大能力,实现从概率预测到严谨逻辑证明的范式转变,在MiniF2F等基准测试中刷新SOTA,依托TIR框架与Lean4Server校验提升逻辑可靠性,推动AI成为基础科学研究的底座设施。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

2026年3月24日,美团龙猫(LongCat)团队正式开源专门用于数学形式化与定理证明的深度学习模型——LongCat-Flash-Prover。该模型针对大语言模型在严密逻辑推演中的短板,通过将形式化推理拆解为自动形式化(Auto-Formalization)、草稿生成(Sketching)与证明生成(Proving)三大原子能力,实现了从“概率预测答案”向“严谨逻辑证明”的范式转变。

QQ20260324-102744.jpg

在结合工具集成推理(TIR)策略下,该模型在 MiniF2F-Test 基准测试中仅需72次推理预算即可达到97.1% 的通过率,刷新了开源 Prover 模型的 SOTA 纪录。此外,在 MathOlympiad-Bench 与 PutnamBench 等高难度竞赛级任务中,其表现亦全面超越现有开源模型。

QQ20260324-102750.jpg

技术层面,LongCat-Flash-Prover 采用了基于 TIR 的“混合专家迭代”框架。通过集成 Lean4Server 校验、语义及定理一致性检测以及针对9种作弊行为的合法性验证,模型有效解决了逻辑漏洞与代码欺骗问题。在训练阶段,团队引入分层 Masking 策略与 Token 层面 Staleness 控制,显著提升了 MoE 架构下强化学习的稳定性。

随着 AI 推理能力从自然语言模糊处理转向计算机可验证的形式化语言,此类 Prover 模型正逐渐超越算法跑分范式,转化为基础科学研究的“底座设施”。这一突破预示着 AI 深度参与前沿数学探索与文献自动化验证的时代正在加速到来。

  • GitHub:

    https://github.com/meituan-longcat/LongCat-Flash-Prover

  • Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

  • Report:

    https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。