华盛顿州立大学研究:ChatGPT 在复杂科学判断中表现出严重的“自相矛盾”

AIBase
个人专栏
热度: 4534

华盛顿州立大学研究发现ChatGPT在判断科学假设真伪时准确率低、一致性差,剔除随机因素后仅略高于掷硬币水平,识别错误陈述能力极弱(仅16.4%),且新版模型未见实质性提升,强调其缺乏真实推理能力,呼吁谨慎使用并加强人工核查与员工培训。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

华盛顿州立大学(WSU)近日发布的一项研究揭示,尽管 ChatGPT 的回答语气充满自信,但在处理复杂科学论断时,其表现更接近于“随机猜测”。研究指出,该模型不仅准确率有限,而且在面对同一问题时经常给出前后矛盾的答案。

由 Mesut Cicek 副教授领衔的团队,从 2021 年以来的商业期刊中提取了 719 条研究假设,并反复提交给模型进行真伪判断:

虽然 ChatGPT 的表面正确率在 80% 左右,但在剔除随机猜测因素后,其真实表现仅比 50% 的“掷硬币”概率高出约 60%。研究者将其评价为“低分的 D 等成绩”。模型在识别错误陈述方面表现极差,对“假命题”的正确判断率仅为 16.4%。

研究人员将每条假设向模型提交了 10 次,发现模型很难保持立场的一致性:

  • 回答反复横跳:在 10 次重复问答中,模型仅在约 73% 的案例中保持了结论一致。

  • 极端矛盾:在部分案例中,模型会出现“真、假交替”的情况,甚至出现“一半回答为真、一半回答为假”的极端情形,即便使用的提示词完全相同。

研究指出,用户容易被 AI 流畅且极具说服力的语言所迷惑,但这并不代表其具备真正的推理能力:

  • 缺乏真实“大脑”:模型本质上是在进行记忆和模式匹配,并不像人类那样真正理解世界或知道自己在说什么。

  • 版本进步有限:测试显示,2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近,均未展现出质的飞跃。

基于研究结果,Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑:不应将生成式 AI 视为可以替代专业判断的“权威”,必须对所有输出结果进行人工核查。组织应加强培训,帮助员工理解 AI 工具的优势与局限,避免盲目信任带来的决策偏差。

该研究再次提醒公众,在 AI 技术快速迭代的背景下,其深层逻辑判断与证据权衡能力仍有待提高。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。