2024年“计算机界诺贝尔奖”之ACM图灵奖授予强化学习领域两位奠基人，并警告AI 安全

17611538698

webmaster@21cto.com

登录注册

2024年“计算机界诺贝尔奖”之ACM图灵奖授予强化学习领域两位奠基人，并警告AI 安全

万能的大雄

资讯 5 1535 2025-03-06 09:07:11

导读：图灵奖发给了机器学习中的强化学习两人组。

今天，美国计算机学会 ACM 今天宣布安德鲁·巴托 (Andrew Barto) 和理查德·萨顿 (Richard Sutton) 获得 2024 年 ACM A.M.图灵奖，以表彰他们开发了强化学习的概念和算法基础。

就强化学习而言，从 20 世纪 80 年代开始，巴托和萨顿在其一系列论文中介绍了主要理念，构建了数学基础，并开发了的重要算法——这是创建智能系统的最重要方法之一。

ACM 主席雅尼斯·伊奥尼迪斯（Yannis Ioannidis）这样表示道：

“安德鲁·巴托和理查德·萨顿的工作展示了应用多学科方法应对我们领域长期挑战的巨大潜力。从认知科学、心理学到神经科学的研究领域激发了强化学习的发展，这为 AI 的一些最重要的进展奠定了基础，并让我们更深入地了解到大脑的工作原理。巴托和 Sutton 的工作并不是我们已经跨越的垫脚石。强化学习仍在不断发展，并为计算和许多其他学科的进一步发展提供了巨大的潜力。这个领域最有声望的奖项对于他们而言，实至名归。”

谷歌高级副总裁杰夫·迪恩（Jeff Dean）这样说道：

“艾伦·图灵在 1947 年的一次演讲中提到‘我们想要的是一台能够从经验中学习的机器’。由安德鲁·巴托和理查德·萨顿开创的强化学习直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的核心支柱，并取得了重大进展，吸引了大批年轻研究人员，并带动了数十亿美元的投资。RL 的影响将延续到未来。谷歌很荣幸赞助 ACM A.M.图灵奖，并向那些塑造了改善我们生活的技术的个人致敬！”

关于获奖人

下面我们来介绍一下获奖人的详细信息。

安德鲁·巴托 (Andrew Barto) 是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授，被誉为强化学习领域的先驱之一。他于 1970 年在密歇根大学获得数学学士学位，随后在 1975 年获得计算机与通信科学的博士学位。

图丨安德鲁·巴托（Andrew Barto）（图片来源：College of Information and Computer SciencesUniversity of Massachusetts Amherst）

巴托在 1977 年加入马萨诸塞大学阿姆赫斯特分校，开始了他的学术生涯，并在多个职位上任职，包括副教授、教授和系主任。巴托在强化学习领域的贡献不可小觑。他与他的博士学生理查德·萨顿（Richard Sutton）合作，从 20 世纪 80 年代开始，系统地介绍了强化学习的主要理念，构建了数学基础，并开发了重要的算法。他们的工作为创建智能系统提供了重要的方法论支持。

巴托和萨顿共同撰写了经典教材《Reinforcement Learning: An Introduction》，该书至今仍是该领域的标准参考书目，目前被引次数已超过 75,000 次。

Reinforcement Learning, second edition: An Introduction (Adaptive Computation and Machine Learning series): Sutton, Richard S., Barto, Andrew G.: 9780262039246: Amazon.com: Books

图《Reinforcement Learning: An Introduction》一书封面

巴托因其在强化学习领域的开创性工作获得了多项荣誉，包括马萨诸塞大学神经科学终身成就奖、IJCAI 卓越研究奖和 IEEE 神经网络学会先锋奖。他是电气电子工程师协会（IEEE）的会员，他同时也是美国科学促进协会（AAAS）的会士。

理查德·萨顿（Richard Sutton）是阿尔伯塔大学计算机科学教授，同时也是 Keen Technologies 的研究科学家，并担任阿尔伯塔机器智能研究所（Amii）的首席科学顾问。萨顿在强化学习领域的影响力深远，被认为是现代强化学习的奠基人之一。他在 20 世纪 80 年代与巴托合作，共同推动了强化学习的发展。

图丨Richard Sutton（来源：University of Alberta）

Sutton 于 1978 年在斯坦福大学获得心理学学士学位，随后在马萨诸塞大学阿姆赫斯特分校获得计算机与信息科学的硕士和博士学位。他的研究兴趣主要集中在决策者与环境相互作用时所面临的学习问题，认为这是智能的核心问题。Sutton 在强化学习领域的贡献包括时序差分学习、策略梯度方法和 Dyna 架构等。

Sutton 因其在强化学习领域的卓越贡献获得了多项荣誉，包括国际人工智能联合会议（IJCAI）卓越研究奖和加拿大人工智能协会终身成就奖。他的工作不仅在学术界产生了深远影响，也为工业界的应用提供了重要支持。

警告人工智能安全问题非常严重

安德鲁·巴托 (Andrew Barto) 和理查德·萨顿 (Richard Sutton) 在获得图灵奖前就向世界发出严重警告。他们这样说：

人工智能公司在发布产品之前并没有进行彻底和完全的测试，他们将这种开发比作“搭建一座桥梁，然后通过让人们的使用它来测试它” 。

巴托称：“在没有保障措施的情况下向数百万人发布软件并不是好的工程实践。工程实践已经发展到试图减轻技术带来的负面影响，但我没有看到正在开发的公司这样做。”

不安全的人工智能开发在之前已经受到了约书亚·本吉奥（Yoshua Bengio）和杰弗里辛顿（Geoffrey Hinton）的批评，他们两位被人们称为“人工智能教父”，也是图灵奖的获得者。

2023 年，包括 OpenAI 首席执行官 Sam Altman 在内的一群顶尖人工智能研究人员、工程师和首席执行官也发表了一份声明，警告称“减轻人工智能灭绝的风险，应该是全球的优先事项”。

巴托指责人工智能公司“受商业动机驱使”，而不是专注于推进人工智能研究。OpenAI 曾多次承诺提高人工智能的安全性，并曾短暂罢免首席执行官奥特曼（Altman），部分原因是“在了解后果之前过度商业化发展”，OpenAI 已经于2024 年 12 月宣布计划转型为一家营利性公司。