18

05月

星期一

05月18日 19:56

GPT-5与Gemini在甲骨文前全军覆没，腾讯发布首个古文字评测基准Chronicles-OCR

据动察 Beating 监测，腾讯混元及 SSV 数字文化实验室联合中科院信工所等机构，正式推出首个覆盖「七体之变」的古文字感知评测基准 Chronicles-OCR。该基准包含 2800 张由专家交叉标注的图像，首次将甲骨文到草书等七种字体的识别难度统一量化。研究团队评测了 28 个主流多模态大语言模型，结果显示它们在古早字体上几乎全军覆没。在跨时代字符检测任务中，GPT-5 和 Gemini 2.5 Pro 的核心指标接近 0，表现最强的模型也仅有 16.5。即使直接在图上画框免除定位步骤，最高准确率也只有 27.1%，其中 Gemini 3.1 Pro 在甲骨文上的准确率仅 14.0%。这证实了现代模型严重依赖规整的现代版式先验。面对无约束、强噪声的古代物理介质，模型的文本分割机制直接失效。字体分类结果进一步表明，模型往往是在识别载体纹理（如龟甲或青铜锈），而非真正的字符笔画。实验还揭示了一个反直觉的现象：开启思考模式反而会导致古文字识别率下降。对照显示，几乎所有支持该模式的模型在开启思考后表现退化。当底层视觉感知缺失时，思维链不仅无法纠错，反而会变成幻觉放大器，输出高自信的错误答案。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

刚刚

OpenRouter推出Fusion复合模型：多模型并联合成，半价匹敌Fable 5

1分钟前

纳斯达克上市公司 Tron Inc 披露 TRX 持仓量突破 7 亿枚

3分钟前

TAO 24小时涨超28%，市值升至30.5亿美元

10分钟前

印度税务部门严查加密资产避税，逾 1 亿美元未申报收入遭查处

34分钟前

数据：某地址分批做空 23,205.35 ETH，持仓价值已达 3903 万美元

49分钟前

航运数据：霍尔木兹海峡商业船只集体改道，避开伊朗水域转向阿曼航线

1小时前

CNN：伊朗方面否认美伊协议签署时间表并称条款仍未最终敲定

1小时前

美 SEC 批准 T. Rowe Price 主动管理型加密 ETF 申请，拟纳入最多 15 种加密资产

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容