扫描下载APP
其它方式登录
周乐鑫团队在Nature发表新论文,提出基于18维通用量表的AI评估框架,实现对AI能力的可解释性建模与跨任务表现预测,揭示现有基准测试存在‘作弊’和污染问题,并指出大模型缩放存在边际递减效应,推动AI评测从分数导向转向能力画像。