王峰随笔：关于深度学习之父辛顿、诺贝尔奖和大科学家的好事多磨

媒体专栏

2024-10-13热度: 47505

杰弗里·辛顿是人工智能领域公认的“深度学习之父”，他的反向传播算法为现代人工智能的发展奠定了基础。然而，他的学术和职业生涯充满曲折，从剑桥到爱丁堡，经历多次专业转型后，他最终专注于人工智能。辛顿年轻时的求知历程像极了童话中的比诺曹——一个天真好奇的小木偶，渴望成为“真人”，而辛顿一生追求的就是让人工智能成为现实。

更新/今天聊聊杰弗里.辛顿和诺贝尔物理学奖。顺便扯的远一点。

辛顿是人工智能领域没有争议的“深度学习之父”。他的根本贡献来自于深度学习中大量使用的反向传播算法理论。前年深秋，圣何塞，我第一次在油管上看见辛顿在接受采访时，就被吸引住了。辛顿的样子让人过目不忘。像极了《木偶奇遇记》中的比诺曹，尤其像的地方，是小木人的尖鼻子。那时候，全世界都知道了OpenAI和ChatGPT。但是除了AI圈，却少有人知道辛顿的名字。

我拿比诺曹开老爷子的玩笑。

一个天真充满好奇心的小木偶，一心想让自己成为真人。同样，辛顿一心想让人工智能成为现实，也一轮被嘲笑。熟悉计算机发展史的人应该知道，人工智能领域道路崎岖，技术投入几起几落，从业者一路被讥笑。你去看辛顿讲话的样子，那眼神和表情，有几分比诺曹的优雅。

诺贝尔颁奖通知电话从瑞典打来，是夜里两点。

斯德哥尔摩那边的电话里问。您在哪里？“我在加州一家便宜的酒店里，这里网络环境比较差。” 辛顿的回答有点囧。此时此刻，你得到物理学奖的感受。辛顿说以为是恶作剧开玩笑、然后用了一个词“dream amazing”，梦一样的惊讶。

“你怎样描述自己？

究竟是一名计算机科学家，还是一名尝试理解生物学的物理学家？”

辛顿并没有在两个简单选择中给出答案。

我这么多年的观察，凡是直接在人家给选择题中做答案的，都不是什么真正的强人。

无论学历有多高，都没有用。我们很多人非常习惯做题，一旦毕业后就进入失重状态，有一种漂浮无力感。因为人进入到一个阶段，不是做题，而是找路。现实中，绝大多数他人预设的初始问题，本身就往往是形而上学。何况人家也就是随便那么一问，没过太多大脑。路是自己走出来的。

辛顿说，自己是“一生都在思考人脑是怎样工作的的人。我在试图了解大脑是如何工作的时候找到了一种技术，效果出奇的好。”

这个回答非常漂亮。辛顿一生的努力和坚持，终让人工智能成为现实。年轻时，辛顿在剑桥大学求学，为了搞清楚人脑如何思考，试图同时主修物理学和生理学，一年后均放弃后，改学建筑，然后放弃。一年后居然又改修哲学，两年后和导师不合而放弃，最终得到实验心理学学士学位。然后，毕业即失业。

很多人不知道，辛顿毕业后居然干了一年木匠活。哈哈，前面的比诺曹埋到这里了。

直到听说有一个专业叫做人工智能。

辛顿果断去爱丁堡大学，拿到人工智能博士学位，毕业后去美国卡内基梅隆（CMU）任教，“惊讶于这里的人都在实验室。”辛顿曾抱怨，他在英国的圈子下班就只知道去咖啡馆。最初，辛顿说在CMU几乎没有什么校内交往，唯一交流的是美国另一所大学的教授，以及一位后来进入CMU的统计学专家，才可以一起讨论人工智能学术方向。找不到办法，找不到投缘AI的人，在最无聊的时光里，辛顿居然也去读俄罗斯作家陀思妥耶夫斯基的《罪与罚》。

辛顿于1986年发表反向传播算法（BP）理论。一言难尽，解释起来要花点功夫。一句话，BP提供了深度学习在大数据集上训练上的能力，无论是图像识别、语音识别还是自然语言处理，甚至能为今天十分流行的Transfomer大模型提供了未见数据场景的泛化能力。今天，OpenAI闭源的ChatGPT和Meta开源的LLaMA，开始为业界所熟悉，其实都是基于Transfomer架构上的。通过大量文本数据进行预训练。反向传播算法能够在此过程中调整模型中的参数，使得模型更好地捕捉到语言统计规律。

计算机专业大学课堂的机器学习教程，反向传播必然是重点章节。

我记得，七年前，我读过清华大学周志华教授所著的《机器学习》（因为封面有一个西瓜，圈中人称西瓜书）在其中一章“神经网络”中，有专门的小节讲解了“误差逆传播算法”，即通常我们所说的反向传播算法（BP算法）。这一算法是神经网络训练中的关键技术，用于通过“梯度下降法”更新网络权重，以最小化网络的预测误差。

相比较个人电脑、互联网、智能手机以及云计算等技术热潮，同样在计算机科学领域深耕的辛顿，和他追逐的人工智能梦，一连坐了三四十年的冷板凳。快七十岁的时候，辛顿看见全世界的人工智能都在用自己提出的深度学习算法。

熟悉辛顿的人一定知道，OpenAI前首席科学家Ilya Sutskever是他在多伦多大学执教时期的学生，算是关门弟子。辛顿很认可这个学生的知觉和工程能力。辛顿讲了一个故事，Ilya要给数学计算工具MatLab写一个API接口，以便于把他们团队整理复杂的数据格式一致。老师辛顿说我们别浪费研究时间，这个工作要耗费一个月时间，学生Ilya说我今天早晨已经写完了程序。2013年，Google收购了辛顿和Ilya共同创办的AI初创公司DNNresearch。应该说，这家公司是辛顿研究小组的衍生物，当时正在进行图像识别领域的机器学习研究，Google利用这项技术增强了照片搜索等功能。

辛顿是英国人。

很多人说英国人不行了。英国人不是日不落帝国时期的那股子劲了。今年夏天我去英国转了一圈，伦敦的朋友提醒，小心飞车党。说说和辛顿有关的两所英国大学，你就知道我们不能自嗨。剑桥大学内，三一学院，仅仅在理论物理学研究中，这里走出了牛顿、麦克斯韦和霍金，几乎奠基夯实物理学三个重要时代。计算机领域，同样地，国王学院中除了我们知道的徐志摩，更走出了阿兰图灵和辛顿。图灵提出了著名的问题，如何测试机器有否智能？辛顿却用一生解决问题。2018年，辛顿和另外两位人工智能科学家一起拿到图灵奖。当年的图灵，何等天才级人物，却承受巨大精神痛苦，啃下一口涂抹氰化钾的苹果就走了。今天，英国人开始把图灵的肖像印到50英磅纸币上。说回来，很多人对欧美人文化中三一没有概念，还以为和三一重工意思差不多。“三一”（Trinity）在基督教教义中指的是“三位一体”，即圣父、圣子、圣灵三位一体，其实是一个纯粹的神学概念。英国这些重点大学，除了教室、图书管就是教堂，神人频出。

辛顿在爱丁堡大学找到学术归宿。

爱丁堡太美。神秘的黑色中世纪风，也许会促使人思考源头和去向问题。电磁学之父麦克斯韦也是最早在爱丁堡学数学和物理的。一百年前，北大懂六门外语的辜鸿铭，上课头戴旧式礼帽手拿茶壶，几乎一人和五四革新派对立，他曾在爱丁堡读的哲学博士。我们那时的北大，从校内吵到校外，既容得下革命派，也能有辜老爷子这样的保守派。毛泽东在长沙师范读书时期的老师，杨昌济是爱丁堡大学哲学系毕业的，杨昌济十分喜欢毛，后来到北大，把女儿许配给他，给毛在图书馆安排工作。毛改变了中国，毛的思想启蒙来自于毕业于爱丁堡大学的杨昌济。

很多人说诺贝尔奖给计算机科学家物理学奖，有点不务正业了。其实，诺贝尔奖并不是第一次给计算机领域，之前有肖克利和贝尔实验室团队。1958年，因为发明晶体管获奖，他的贡献直接推动了计算机芯片技术。美国硅谷芯片行业的黄埔军校，应该首推肖克利实验室，因为科学家不善管理，内部分崩离析，先后出去创办了仙童去半导体和Intel，提出摩尔定律的摩尔，是他实验室的员工，也是著名的硅谷“八叛逆”之一。今天的英伟达和台积电，其实算是他们的徒孙辈。

科学家辛顿在Google工作了十年，做副总裁，最终离开。

并非意见不合，而是因为担心人类无法控制AI的风险而放弃在企业中的工作，从企业里离开，是为了可以自由地讨论人工智能的风险，而不被企业内政策限制，辛顿成为了一个人工智能领域的批评者。观察现代历史，我发现，真正的科学家，一旦进入商业和政治，总是充满爱恨情仇。同样的分歧，出现在Ilya和Altman之间，因为“天真”。请杠精们放过我，这里我的用词，乃是一个大大的褒义。二战期间，物理学家奥本海默帮助美国军方制造出原子弹，战争结束后，却一生都在反对继续氢弹。他发现，自己用技术改变了世界，但是这项技术在一部分人手里，随时能走向失控。奥本海默有很多科研成果，都能申请诺贝尔奖，但是诺贝尔奖怎么会给一个造原子弹的人。他生命的晚景是痛苦和孤寂的。和奥本海默一样，辛顿也是这样的担忧，他公开批评OpenAI对人工智能安全的漠视，是“资本主义的逐利性”。如果我们回头看看，一百多年前科幻作家乔治奥威尔的《时间机器》，就该知道，我们今天，已经是他们笔下的科幻世界了。但是，今天的人类还能够向前走到多远，为何失控、幻灭和拯救一直是科幻的主旋律？

如果我写科幻，第一个序章，就是因为两国大战，人类被核武器消灭，碳基生命消亡，藏于地下深处的硅基生物人利用光能源和算法，自我升级繁衍，统治地球。我们已经有的大数据，异化为硅基人血液和细胞。今天的地球文明成为星际史前。仅有少数人乘诺亚号去了火星，经过几代人的努力，准备打回故土。

觉得剧本俗套？我是凡人。

科学是人类文明阶梯以及跳跃演进中的核心组件，本无善恶。但是近代以后科学最早的应用对象，几乎先用于军事。

什么是“科学之心”？我不敢下断言。像辛顿这样的科学家不少。他们内心干净，好奇心强，专注一件事从不受外界干扰。我能感受到。大科学家，从对一件微小的事物好奇心驱使的探索之爱，最终走向对人类命运的关切之爱。顶尖思维只来自于一个字，爱。其间，常有悲情。

我们常说，好事多磨。

但是可能，大好事要磨尽一生。

本内容旨在传递行业动态，不构成投资建议或承诺。