05

06月

星期五

06月05日 22:40

通义实验室推出通用智能体评测基准PawBench

火星财经消息 6月5日消息，通义实验室推出评测基准PawBench，v1.0版本已开源。它面向个人助理与通用智能体场景，将底座模型与运行框架（Harness）纳入同一评测体系。据介绍，PawBench不是单纯做一个模型排行榜，而是把“模型、Harness、任务”三者放在一起做交叉评测。（广角观察）

本内容旨在传递行业动态，不构成投资建议或承诺。

5分钟前

毫无悬念，「麻吉」半小时前再遭部分清算，账户仅剩1.5万美元

9分钟前

非农就业强劲引发加息担忧，现货黄金跌超 3%

23分钟前

Bitwise CIO：美股、加密同跌或与天价IPO有关

24分钟前

美 SEC 正推进证券代币化交易框架，并与 CFTC 协调监管政策

38分钟前

Hut 8子公司完成42.5亿美元优先担保票据定价

38分钟前

马斯克宣布X新功能：X Chat将会发送误导性推文的更正信息

42分钟前

数据：343,075 枚 ETH 在 DeFi 协议中面临清算风险，价值 5.47 亿美元

42分钟前

数据：过去 24 小时全网爆仓 13.18 亿美元，主爆多单

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容