SQLite_SQLite相关新闻_SQLite动态

0%完成率，Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

Meta FAIR联合多机构推出ProgramBench新基准测试，评估大模型从零重建真实软件系统（如ffmpeg、SQLite）的能力。结果显示当前所有主流大模型完成率为0%，暴露其擅长局部代码生成但缺乏全局系统规划、模块化设计和长期工程维护能力的核心瓶颈。

机器之心05月07日 11:42

刷榜AI全挂了，Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

ProgramBench是Meta、斯坦福、哈佛联合推出的全新AI编程基准测试，要求模型仅凭可执行文件和文档从零重构200个真实软件项目（如FFmpeg、SQLite、PHP等），评估其端到端软件设计能力。九大主流模型在全部任务上通过率为0%，暴露AI擅长局部修复但缺乏系统架构、模块拆分和抽象设计能力的本质缺陷。

新智元05月06日 20:58

暂无内容