扫描下载APP
其它方式登录
文章聚焦华人学者陈文虎及其团队(TIGERLab/虎头帮)在AI基准评测领域的关键贡献,重点介绍其主导开发的MMLU-Pro、MMMU和MMMU-Pro等高难度、高区分度评测体系,用以解决大模型与多模态模型评估中旧基准失灵、区分度不足、易被猜测或绕过等问题,推动行业建立更科学、稳定的能力衡量标准。