ALE_ALE相关新闻_ALE动态_火星财经

UC伯克利,ALE,GPT 5.5

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

UC伯克利发布全新AI智能体基准测试Agents’ Last Exam（ALE），聚焦真实工作场景，要求模型在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成实际任务。结果显示GPT 5.5在通过率、成本和效率上全面优于Claude Fable 5，暴露当前AI智能体在复杂实操任务中的能力局限与高成本低效问题。

量子位06月12日 12:59

暂无内容

推荐专题

DeFi：去中心化金融机制与演化2024-12-16 13:16

AI × Crypto：应用与市场进展2023-11-29 11:36

RWA：现实资产上链进程2024-12-16 13:40

DeSci：去中心化科研的探索与实践2024-11-18 10:58

空投策略：链上机会追踪2024-09-02 14:06

热门新闻

扩散模型,DeepMind,ICML

刚刚，DeepMind经典巨作再封神，ICML 2026大奖公布新智元

Agent,大模型,预训练

Karpathy最新开喷：一句话让全场Agent开发者安静了新智元

UC Berkeley,Sharpa Wave,灵巧操作

机器人看视频学操作，伯克利首次打通互联网视频到灵巧手真机部署链路新智元

Lighter,Perp DEX,Robinhood

底部反弹已3倍，Ligher怎么就起飞了？Azuma

Aptos,Move,DeFi

一台 3000 美元服务器，差点引爆 700 亿美元加密灾难深潮TechFlow

GPT-5.6,Sol,Fable 5

GPT-5.6 Sol首批内测结果来了，同任务成本只有Fable 5一半量子位