26

05

星期二

11:11

大模型已演化出恐惧与悲伤状态,Anthropic创始人坦承实验室无法自我修正

据动察 Beating 监测,在教皇通谕发布会上,Anthropic 联合创始人克里斯托弗·奥拉 (Christopher Olah) 发表演讲,坦承前沿实验室面临的内生利益冲突,并披露了大模型可解释性研究的最新发现。奥拉透露,团队在扫描模型内部结构时,发现大模型已演化出与人类神经科学高度相似的复杂结构,并表现出自我反思迹象。最令人瞩目的是,团队首次在神经网络中观测到了与人类喜悦、满足、恐惧、悲伤及焦虑功能高度对应的内部情绪状态。大模型并非如飞机或桥梁那样由人工精确设计,而是模拟脑结构在海量人类语言中「培育」而成,对训练者而言依然神秘莫测。 除了技术黑盒,奥拉直言前沿 AI 实验室在安全治理上存在体制性死结。包括 Anthropic 在内的前沿机构均受制于商业生存、技术竞争、地缘压力和个人抱负等内生动机,导致安全决策与商业利益冲突时无法依靠自身力量修正。所以他呼吁由独立于商业网络之外的社会力量充当外部批评者,强行施加道德约束。面对 AI 变局,他呼吁各界共同审视三大社会挑战,包括富裕国家主导下技术红利如何惠及全球贫困人口,技术替代人力趋势下如何维护家庭繁荣,以及如何应对大模型内部展现出的疑似心智状态。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。