华盛顿州立大学研究：ChatGPT 在复杂科学判断中表现出严重的“自相矛盾”

AIBase

个人专栏

2026-03-19热度: 4534

华盛顿州立大学研究发现ChatGPT在判断科学假设真伪时准确率低、一致性差，剔除随机因素后仅略高于掷硬币水平，识别错误陈述能力极弱（仅16.4%），且新版模型未见实质性提升，强调其缺乏真实推理能力，呼吁谨慎使用并加强人工核查与员工培训。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

华盛顿州立大学（WSU）近日发布的一项研究揭示，尽管 ChatGPT 的回答语气充满自信，但在处理复杂科学论断时，其表现更接近于“随机猜测”。研究指出，该模型不仅准确率有限，而且在面对同一问题时经常给出前后矛盾的答案。

由 Mesut Cicek 副教授领衔的团队，从 2021 年以来的商业期刊中提取了 719 条研究假设，并反复提交给模型进行真伪判断：

虽然 ChatGPT 的表面正确率在 80% 左右，但在剔除随机猜测因素后，其真实表现仅比 50% 的“掷硬币”概率高出约 60%。研究者将其评价为“低分的 D 等成绩”。模型在识别错误陈述方面表现极差，对“假命题”的正确判断率仅为 16.4%。

研究人员将每条假设向模型提交了 10 次，发现模型很难保持立场的一致性：

回答反复横跳：在 10 次重复问答中，模型仅在约 73% 的案例中保持了结论一致。
极端矛盾：在部分案例中，模型会出现“真、假交替”的情况，甚至出现“一半回答为真、一半回答为假”的极端情形，即便使用的提示词完全相同。

研究指出，用户容易被 AI 流畅且极具说服力的语言所迷惑，但这并不代表其具备真正的推理能力：

缺乏真实“大脑”：模型本质上是在进行记忆和模式匹配，并不像人类那样真正理解世界或知道自己在说什么。
版本进步有限：测试显示，2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近，均未展现出质的飞跃。

基于研究结果，Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑：不应将生成式 AI 视为可以替代专业判断的“权威”，必须对所有输出结果进行人工核查。组织应加强培训，帮助员工理解 AI 工具的优势与局限，避免盲目信任带来的决策偏差。

该研究再次提醒公众，在 AI 技术快速迭代的背景下，其深层逻辑判断与证据权衡能力仍有待提高。

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:ChatGPT 生成式AI 华盛顿州立大学

24H热门新闻

暂无内容

7x24H 快讯

7小时前

Eleanor Terrett：加密市场结构谈判取得进展但仍处"微妙状态"，会议中出现意料之外的前进路径

7小时前

数据：监测到 3,622.65 万 USDT 转出 Binance

7小时前

Algorand 基金会完成战略整合，将接管协议开发与 IP 并承诺投入 1500 万美元

7小时前

以太坊跌破2100美元

7小时前

美国不会实施原油出口禁令

7小时前

比特币跌破69,000美元

7小时前

某巨鲸开设 ETH 多单，当前浮亏超 685.8 万美元

7小时前

Immunefi：被黑客攻击的加密代币在半年内平均下跌 61%

华盛顿州立大学研究：ChatGPT 在复杂科学判断中表现出严重的“自相矛盾”

推广

最近更新

24H热门新闻

友情链接

投资区块链，下载MarsBit APP

账号密码登录

修改昵称

华盛顿州立大学研究：ChatGPT 在复杂科学判断中表现出严重的“自相矛盾”

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资区块链，下载MarsBit APP

商务合作