18

05

星期一

19:56

GPT-5与Gemini在甲骨文前全军覆没,腾讯发布首个古文字评测基准Chronicles-OCR

据动察 Beating 监测,腾讯混元及 SSV 数字文化实验室联合中科院信工所等机构,正式推出首个覆盖「七体之变」的古文字感知评测基准 Chronicles-OCR。该基准包含 2800 张由专家交叉标注的图像,首次将甲骨文到草书等七种字体的识别难度统一量化。 研究团队评测了 28 个主流多模态大语言模型,结果显示它们在古早字体上几乎全军覆没。在跨时代字符检测任务中,GPT-5 和 Gemini 2.5 Pro 的核心指标接近 0,表现最强的模型也仅有 16.5。即使直接在图上画框免除定位步骤,最高准确率也只有 27.1%,其中 Gemini 3.1 Pro 在甲骨文上的准确率仅 14.0%。 这证实了现代模型严重依赖规整的现代版式先验。面对无约束、强噪声的古代物理介质,模型的文本分割机制直接失效。字体分类结果进一步表明,模型往往是在识别载体纹理(如龟甲或青铜锈),而非真正的字符笔画。 实验还揭示了一个反直觉的现象:开启思考模式反而会导致古文字识别率下降。对照显示,几乎所有支持该模式的模型在开启思考后表现退化。当底层视觉感知缺失时,思维链不仅无法纠错,反而会变成幻觉放大器,输出高自信的错误答案。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。