03

04月

星期四

04月03日 07:37

OpenAI开源PaperBench，重塑顶级AI Agent评测

火星财经消息，4 月 3 日，据 AIGC 开放社区消息，今天凌晨 1 点，OpenAI 开源了一个全新的 AI Agent 评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力，需要对 2024 年国际机器学习大会上顶尖论文的复现，包括对论文内容的理解、代码编写以及实验执行等方面的能力。根据 OpenAI 公布的测试数据显示，目前知名大模型打造的智能体，还无法战胜顶级机器学习专业博士。但在辅助学习、了解科研内容方面很有帮助。

免责声明：本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况，及遵守所在国家和地区的相关法律法规。

8分钟前

ETH突破1800 USDT，24H涨幅4.36%

1小时前

SEC已正式受理富达（Fidelity）提交的Solana ETF申请

1小时前

前员工承认收受以太坊充当商业间谍，Rippling起诉竞争对手Deel

2小时前

加密友好型主经纪商Hidden Road或将被收购

3小时前

特朗普邀请萨尔瓦多总统于4月14日访问白宫

3小时前

Polymarket上预测美国经济年内陷入衰退的概率升至47%

3小时前

美联储副主席杰斐逊：贸易政策仍存在很大不确定性，需要时间评估

4小时前

Republic拟按最高6000万美元估值收购加密交易平台运营商INX Digital

下载MarsBit APP

以行业热点、实时快讯、视频解读等维度提供全方位的区块链整合服务

24H热门新闻

暂无内容