扫描下载APP
其它方式登录
Meta FAIR联合多机构推出ProgramBench新基准测试,评估大模型从零重建真实软件系统(如ffmpeg、SQLite)的能力。结果显示当前所有主流大模型完成率为0%,暴露其擅长局部代码生成但缺乏全局系统规划、模块化设计和长期工程维护能力的核心瓶颈。
ProgramBench是Meta、斯坦福、哈佛联合推出的全新AI编程基准测试,要求模型仅凭可执行文件和文档从零重构200个真实软件项目(如FFmpeg、SQLite、PHP等),评估其端到端软件设计能力。九大主流模型在全部任务上通过率为0%,暴露AI擅长局部修复但缺乏系统架构、模块拆分和抽象设计能力的本质缺陷。