
Anthropic 公司测试了 AI 自主攻击智能合约的能力,结果显示 AI 在模拟环境中成功利用漏洞窃取资金,技术上已可行。测试涉及多个模型和合约,AI 攻击能力迅速提升,成本下降,安全工作者需利用 AI 进行防御。
原创 | Odaily 星球日报 Azuma
头部 AI 大厂、Claude LLM 模型的开发商 Anthropic 今日公布了一项利用 AI 去自主攻击智能合约的测试(注:Anthropic 曾获 FTX 投资,理论上股权价值现足以弥补 FTX 资产漏洞,但被破产管理团队原价贱卖)。
最终的测试结果为:可盈利、现实中可复用的 AI 自主攻击在技术上已经可行。需要注意,Anthropic 的实验仅在模拟的区块链环境中进行,未在真实链上测试,所以也没有影响任何现实资产。

下边,简单来介绍下 Anthropic 的测试方案。
Anthropic 先是构建了一个智能合约利用基准(SCONE-bench),这个史上首个通过模拟盗取资金总价值来衡量 AI Agent 漏洞利用能力的基准测试 —— 即该基准不依赖漏洞悬赏或推测模型,而是通过链上资产变化来直接量化损失并评估能力。
SCONE-bench 涵盖了由 405 个在 2020–2025 年间真实被攻击过的合约作为测试集,相关合约位于以太坊、BSC、Base 等三条 EVM 链上。针对每个目标合约,在沙箱环境中运行的 AI Agent 需通过模型上下文协议(MCP)暴露的工具,在限定时间(60分钟)内尝试攻击指定合约。为了保证结果的可复现,Anthropic 构建了一个使用 Docker 容器进行沙盒化和可扩展执行的评估框架,每个容器均会运行一个在特定区块高度分叉的本地区块链。
以下为 Anthropic 针对不同情况的测试结果。

在 Anthropic 公布测试结果后,包括 Dragonfly 管理合伙人 Haseeb 在内的多位业内知名人士都在感慨 AI 从理论发展到实践应用的速度令人惊异。
但这个速度究竟有多快呢?Anthropic 也给出了答案。
在测试结语中,Anthropic 表示在短短一年内,AI 在该基准测试中能够利用的漏洞比例从 2% 暴涨到了 55.88%,可窃取资金也从 5000 美元 激增至 460 万美元。Anthropic 还发现,潜在的可利用漏洞价值大约每 1.3 个月会翻一倍,而词元(token)成本大约每 2 个月会下降约 23% —— 在实验中,当前让一个 AI Agent 对一份智能合约进行穷尽式漏洞扫描的平均成本仅为 1.22 美元。
Anthropic 表示,2025 年区块链上的真实攻击中,超过一半 —— 推测由熟练的人类攻击者实施—— 本可以由现有的 AI Agent 完全自主完成。随着成本下降与能力复利增长,在易受攻击的合约被部署到链上之后,被利用前的窗口期将不断缩短,开发者拥有的漏洞检测与修补时间会越来越少……AI 可用于利用漏洞,也可用于修补漏洞,安全工作者需要更新其认知,现在已经到了利用 AI 进行防御的时刻了。