John Carmack：通向通用人工智能的“少有人走的路”

17611538698

webmaster@21cto.com

登录注册

John Carmack：通向通用人工智能的“少有人走的路”

技术人生 0 2073 2023-04-28 08:04:19

导读：

这是位勇敢的且标志性的达拉斯游戏开发者、火箭发射工程师以及VR梦想家，如今已经转向了一个大胆的新挑战：开发通用人工智能技术，一种模仿并超越人类智能、理解事物和解决问题的全新人工智能形式。

卡马克认为，未来 60年，AGI取得初步成功的可能性为2030%。以下是他如何看待以及说明自己为什么独立工作，亦能够实现这一目标。

John Carmack [来源：Michael Samples 摄影，Lensa，istockphoto]

北德克萨斯州的『技术天才』约翰·卡马克（John Carmack），如今正瞄准他新的雄心勃勃的目标：

通过开发通用人工智能来解决世界上最大的计算机科学技术问题。这种人工智能形式，其机器可以理解、学习和执行人类可以完成的任何智力任务。

今年 52岁的卡马克（Carmack）在高地公园（Highland Park）比佛利大道（Beverly Drive）自己的价值数百万美元的豪宅里，正在努力通过他的创业公司Keen Technologies实现AGI。这家新公司在去年8月份的一轮融资中从包括Capital Factory在内的投资商那里筹集到了2000万美元。

卡马克说，这是他职业生涯的“第四个主要阶段”，此前他曾在计算机领域工作，与Mesquite的id Software（成立于1991年）一起开创视频游戏。之后在位于Mesquite的Armadillo Aerospace（2000-2013）进行亚轨道太空火箭，以及成立 Oculus VR的虚拟现实，Facebook（现称为Meta）在其成立2年后以2014亿美元收购了Oculus VR。

卡马克于2019年底辞去了Oculus的首席技术官职务，成为VR企业的首席咨询官，并宣布其专注于AGI。后来他彻底离开了 Meta，全职专注于 Keen。

在这位科技偶像的休息时间，我与他坐下来进行了独家采访。而这确是一次非常坦率的对话。

问：约翰，你现在正在做什么样的工作来“解决”通用人工智能，为什么要用你的特定方法？

我曾经坐在电脑前很久，思考它的技术概念，并记录它们，制定理论，然后测试它们。这就是我现在的工作，因为没有人真正知道通往我们想去地方的完整路径。

但我认为与任何人一样，会有很多很好的机会，这里原因有很多。

“有些人已经筹集了数十亿美元来追求这些。虽然这在某些方面很有趣，而且也有迹象表明，现在在狭窄的机器学习领域有可能非常强大，但目前尚不清楚这些是否是实现通用人工智能的必要步骤。

有些人已经筹集了数十亿美元来做通用人工智能。虽然这在某些方面很有趣，而且有迹象表明，现在狭隘的机器学习领域，已经实现了非常强大的东西，但目前尚不清楚这些是否是实现通用人工智能的必要步骤。对于乐于这样做的公司来说，这不是一个糟糕的赌注，因为已经有很多出口匝道，那里有很多有价值的东西，即使你没有一路走来，也仍然有一些东西会改变世界，比如垂直的人工智能。

但是令人担忧的是，如果你只是选择第一个出口并说，'嘿，这里有一个价值数十亿美元的出口'——我们知道可以去拿我们理解的东西并彻底改变各个行业。这成为一件非常诱人的事情，但它分散了每个人的注意力，无法进一步展望未来并专注于远期的事情。所以，我可以直言不讳地说我正在做的事情的位置，那便是：零距离的商业。

最初是什么促使你对通用人工智能感兴趣？

我们现在正处于一场科学革命之中。

在10年前，人们还没有感觉到人工智能在发挥的作用。我们已经经历了所谓人工智能的“冬天”——事实上，几十年来已经发生了几个。这些很有趣，因为在虚拟现实中也经历了这个，它几乎是一个贬义的代名词。它在 1990 年代，曾经崩溃得非常糟糕，人们甚至不想再谈论它。

人工智能有几个这样的周期，疯狂炒作，资金流入，表现不佳，然后再崩溃，没有人愿意谈论这个东西。但是过去的十年与往时并不相同，那些没有注意到它有多大能量的人并没有注意到本次的不同，因为过去十年中，机器学习发生了约对令人震惊的事情，而且数量影响很深远。

卡马克本尊照片（图源：网络）

正是因为这一点，我跟自己说，'可能是时候认真研究一下了。这对我来说非常有趣，因为我对机器学习和人工智能有技术旁观者角度的理解，在我十几岁的时候，我就读过一些开创性的书籍，我知道符号人工智能和所有这些类型的东西。所以，我的脑子对这些事情有所了解，但我没有关注正在发生的事情，因为我以前正忙于游戏、航空航天和虚拟现实的事业。

真到了那个程度后，我才意识到，'好吧，我认为这里可能有一些需要理清的东西——什么是炒作，什么是现实。所以我做了通常应该做的事情，我的真正能力是来自从根本上理解事物，只有在最深层次上透析，从最底层了解事情是如何发生的，你才能获得洞察力。

因此，大约四年前，我做了一个为期一周的静修，只是拿着一台电脑和一堆参考资料。我花了一周的时间，重新研究和了解这个行业的基本面。“然后说，'好吧，我非常了解这一点，可以与研究人员进行认真的对话。我对达到这种理解水平感到非常兴奋。

我向OpenAI的首席科学家Ilya Sutskever索要了一份阅读清单。他给了我一份大约40篇研究论文，和我说，'如果你真的学会了这些内容，你就会知道今天90%的重要技术。

我做到了，我把这些东西全部都吃透了，一切景象开始在我的脑海中整理出来。

在之后，OpenAI 的 Sam Altman 还邀请我参加了一个会议——Y Combinator 的 YC 120。

在以往时间里，我是从来不参加这类事情（因为我的性格内向隐士倾向），但这次我决定参加。事实证明，这次会议是Sam精心策划的，他让我跳槽去找工作，他让OpenAI的Greg Brockman和Ilya Sutskever来找我，试图游说让我去OpenAI。

我有些受宠若惊，因为我无论怎么样都不算是机器学习方面的专家。我算是一个资深的系统工程师，做过很多东西，但我只有基础的人工智能知识。而他们是这个领域的领导者，但他们认为我值得尝试去做，这次，又像是一粒种子一样播下了，它让我思考正在发生事情的重要性，以及我可以在这件新事中扮演什么角色。

我还询问了OpenAI的首席科学家伊利亚，向他索要了一份阅读清单。

这是我的学习道路，也就是我做事的方式，我有一堆需要知道的学习资料，才能在这个领域真正实现关联。这位朋友给了我一份大约40篇研究论文的清单，跟我说，'如果你真的学会了这些内容的全部，你就会知道今天90%的重要技术。我做到了，我把所有这些东西都翻遍了，一切都开始在我的脑海中整理出来。

约翰·卡马克在他的VR房间中

你在 Meta 做过虚拟现实相关工作，能否讲一讲？

是的，我在 Meta 遇到了一些真正头疼问题，它需要大规模的战略指导。你可以已经看过一些关于花了多少钱的新闻，我认为很大一部分人花钱花得很糟糕。

我在 Meta 遇到了一些真正挑战是从Oculus被收购开始，后来我的五年劳动合同也即将结束。那时，我便下定决心，'好吧，我要更加认真地对待这份人工智能的工作。

我以前做过的所有事情中，包括游戏、火箭、虚拟现实，我的目标都是一些现实中没有的东西，但我仍然有一个清晰的视线。

不过，这一次的AGI的情况有所不同，因为没有人知道如何去做。这不是一个简单的软件工程问题。

但是，考虑到过去十年中发生的事情，所有有了这些诱人的线索，就像一些看起来简单的想法一样。它们不是这些极端的黑魔法或数学魔法，其中很多是相对简单的技术，现在我理解了它们的底层，这对我来说非常有意义。感觉距离拥有相当于制造我们的生物制剂见解还有六种距离。

三四年前我就做了一个估计：我认为到50年后，会有50-2030种可能性出现人工智能的明显生命迹象。这些并不一定意味着对事情都产生巨大的经济影响，只是有一个运行在大多数人认为是智能和有意识计算机上的存在，并且与我们人类正在做的事情处于同一水平。经过三年的深度研究，我没有改变我的研判。事实上，我甚至可能把它提高到60年后将有2030以下种类。如果将它提升到2050年，我相信有95%的把握。

许多人预测人工智能将发生惊天动地的事情，是不是？

我尽量不用那种夸张的声明，因为我是一个坚定且理性的人。即使是火箭相关的东西，我也不会谈论人类如何去殖民火星，而是我愿意讨论论用哪些螺栓将东西固定在一起。所以，我并不想热门于一个TED演讲，继续讨论所有可能通过合理具有成本效益的通用人工智能可能发生的事情。

在新冠流行中表明，严格通过计算机交互流可以完成的事情比人们想象的要多很多，人们可以通过 Zoom、邮件、聊天、Discord 等计算机方式进行通信，做大部分的事情。

当今世界价值的很大一部分都可以依靠这些应用运行。如果你有一个像人类一样的人工代理——即使在我们今天狭隘的人工智能中，在深度伪造、聊天机器人和语音合成的世界里。很明显，我们可以在那里模拟人类模式。我们还没有人工智能同事的可学习意识流，但我们确实有可以提出的口头知识。

你会发现有些人可以对奇点以及AGI如何改变世界进行行狂想。

但是，如果我只是看着它说，10年后我们将有“通用远程员工”，它们是在云上运行的人工通用智能。人们可以拨打电话说，'我今天想要五个弗兰克和10个艾米，我们将把他们部署到这些工作中'，你可以像云访问计算资源一样运转起来，如果你可以通过云访问本质上是人工人力资源来做这样的事情，那就是对这样的事情最平淡无奇、最平凡、最平庸的使用。

如果我们所做的只是创造更多的人力资本，并将其应用于我们今天已经在做的事情上，而你可以说，“我想制作一部电影或漫画书或类似的东西，给我需要去做的团队，”然后在云上运行它——这才是我对它的愿景。

为什么实现一个执行人类可以完成的任务的系统如此重要？人类做人类任务有什么问题？

好吧，你可以把它与很多问题联系起来，比如，“人口多是好事情吗？“移民是一件好事吗？我们似乎能够利用愿意从事经济活动并接受市场指导的新人类来源？”

现在的世界拥有8亿人口，这比当时有50万人生活在洞穴里要好得多。因此，我相信，随着欢迎人造生物进入我们的工作社区时，人类的价值和进步的总和将大大加速。我认为这一切将创造巨大的价值。

那么，您如何看待实现AGI的特定途径？

从今天的虚拟助手——你的Siri、Alexas和谷歌助理，到越来越有帮助，接管越来越多的任务，但都有一条道路来达成。

但这些目前都是相当脆弱的，专门的事物——各种知识表示、语音合成、语音理解，这可能都不是通往通用人工智能的途径，这种智能对于一大堆目的应该都是灵活的。他们有成千上万的程序员，从字面上看，现在正在努力为这些助手添加功能，这些确实会创造近期价值。将这些东西拼接在一起的编程工作将是一次性编程，但这条道路并不会导致一个统一代理来学习人类可以学习的任何任务。

而处理感知的事情，比如理解某人的声音，甚至自然地合成声音，这些是计算机在10年或15年前都干得不好的事情。

90年代有一则笑话，你有一台可以轻松击败世界国际象棋冠军的计算机，但计算机却无法做到2岁孩子可以做的事情：它无法区分猫和狗。世界上没有计算机产品可以做简单的琐碎且有感知的事情。事实证明，这就是我们的人类大脑实际上所做的：它更多的是关于感知和模式匹配。当时人们的诡辩是认为这是关于这些哲学符号操纵的东西，这睦导致人工智能误入歧途，真的，堵塞了几十年。

所有这些死胡同，结果被证明是脆弱的东西，并没有很高的商业价值。这不是事情的正常运作方式。但随后，发生了十年的新革命：人们通过深度学习和深度连接主义方法，计算机实际上可以做到2岁孩子在感知方面能做的事情。在其中很多方面，似乎已经处于超人的水平。我们还没有的东西是意识，联想记忆，有生活、目标和计划的东西。这些脆弱、脆弱的人工智能系统可以实现其中任何一个，但这仍然没有做到人类大脑甚至动物大脑的工作方式。

我的意思是，忘记人类的大脑;我们甚至没有做到可以像老鼠或猫一样的东西。但我的直觉告诉我，离这些事情已经很近。

几乎可以肯定的是，我们在过去十年中从深度学习中获得的工具，将能够将它们用于通用人工智能。在其他领域，还有一些我们还不了解的结构，比如强化学习、监督学习、无监督学习。所有这些都以人类思考事物的方式汇集在一起，但我们还没有最终的综合。

是否有实现目标的关键因素或中心思想？

我说的一件事，可能有些人并不喜欢它，那就是源代码，人工智能所必需的计算机编程，将是几万行代码。现在，一个大程序是数百万行代码，比如 Chrome浏览器就有 20到30万行代码。

马斯克最近提到过，Twitter运行在大约20万行的Scala上。这些都算是大型应用程序，一个人的力量无法去重写它。从字面上看，你在余生中无法输入足够的内容来编写全部代码。但我相信，支持AGI的编程将能够支持只有一个人的团队来把程序全部完成。

现在，一些聪明的钱仍然说它是由一个研究团队完成的，而且它是在所有这些事情上拼凑起来的。但我对此的推理是：如果你取得一个DNA，在不到一千兆字节的信息中。所以即使是你的整个指令在身体中也没有那么多，大脑只是其中的一小部分，比如40兆字节，而且它并没有严格编码。所以，我们有人类的存在证明：什么造就了我们的大脑，什么造就了我们的智力，并不需要那么多代码。

现在，它演变成一个非常复杂的物体，你会看到的数字是人类大脑大约86亿个神经元，它们之间可能有多达100万亿个连接。现在，即使在计算机术语中，这也是一个很大的数字。当你谈论像GPT-3之类的大型模型时，你会说，“哦，这有160亿个参数”，这些参数有点类似于大脑中的神经连接数。

所以，你可能会说，在我们的计算机拥有与大脑一样多的能力之前，我们还有500倍以上的时间。但我认为，有很好的理由相信这是一个极其悲观的估计，这个估计应该小得多，因为我们的大脑正在做很多并不那么重要的事情。它们有的事情做的真的很草率，它们运行也真的很慢，所以它们可能并不需要那么多参数。

但是同样地，这是一个被大规模利用的简单程序，这正是当今人工智能正在发生的事情。如果你把人们谈论的东西——GPT-3、Imagen、AlphaFold——所有这些，在它们的框架中，源代码并不算太大，有的数千行代码，大的也不足数万行。现在，它们建立在支持生态系统的大框架之上，但核心逻辑仍然不是一个大程序。

所以，我坚信，在十年内我们将拥有了足够多的硬件来做到以上这些，而且也这将是少量的源代码，并且有足够多的人在做这些事情。虽然在我看来，没有更多的人在我的位置上做这件事有点令人惊讶，而每个人都将DeepMind和OpenAI作为领先产品的AGI研究实验室。

你为什么要独立于所有这些人工作？

我保持独立的原因是，所有主要参与者都在进行这种非常令人惊讶的“群体思维”。在过去的一年里，看到这样的事情几乎是奇怪的：OpenAI发布了一个图像生成器，然后谷歌也发布了一个，然后Facebook以发布了一个。

因此，这些公司都在几个月内能够复制其他人的工作，因为它们都来自同一个学术研究人员库。有异花授粉和巨大的智囊团，超级聪明的人在做到这一切。

“虽然有一些人在我的公司里投资了2000万美元，但我并没有告诉他们我可能会在通用人工智能方面取得突破。相反，我是说我有一个不可忽视的机会，我会亲自找出一些必要的重要事情。

因为我们还不知道我们要去哪里，所以机器学习中实际上上有一种策略，你需要一定程度的随机性。我们从随机权重和随机位置开始，有时是多个集成模型。所以，我将自己定位为这些随机测试点之一，行业的其他部分正朝着通往神话般的地方的方向发展，他们在这方面做得很好。但是，因为我们没有这个视线——我们不确定我们是否在当地的吸引子盆地中，在那里我们可以为此梯度下降到解决方案——让一些人测试解决方案空间的其他部分也很重要。

而且，我有不同的背景。我并非学术研究背景，而我是一名系统工程师。我有一些与此相关的感知和系统技术和紧急行为部分，但我足够聪明，可以应用一切必要的东西。所以，虽然有一些人在我的公司投资了2000万美元，但我并没有告诉他们我可能会在通用人工智能方面取得突破。相反，我是说有一个不可忽视的机会，我会亲自弄清楚一些必要且重要的事情。

一旦弄清楚了，你认为后果会是什么？

通用人工智能的出现将实实在在的影响经济，这确实是一个“改变世界层面”的事件，它将重塑人类可以做到的一切。

这几乎是人们能想到的最大规模的事情。所以，所有这些赌注是值得的，比如我的研究方向上的2000万美元。它可能会成功，也可能不会，嗯，我就是这样直截了当地说。在OpenAI和DeepMind以及所有中国研究实验室工作的每个人之前，我以前可能会想出说'是的，我相信我会到达那里'，这将表示我是非常傲慢的。

但是，我不知道我认为有谁比我在解决这些问题时更加聪明。我认为在这场比赛中并没有脱离我自己的联盟。

我也正在走一条不同的道路。我可以这样说，'是的，我正将把我生命中的下一个十年投入其中，这可能是一个伟大的成功。或者结果可能是我发现了一两个超级聪明的东西。我也会再和其他人合作，也许那里有更值得收购的其他东西。

但我不想做的是，再选择一个商业应用来做，'好吧。我懂游戏，懂图像生成，我可以去做游戏内容创作。事实上，我和Oculus时的合伙人Brendan Iribe说，'来和我一起做这件事吧。我们将筹集到一大笔钱，这会很棒。是的，这将是一只独角兽。毫无疑问，我们可以启动一家价值数十亿美元的公司来做到这一点。但是通用人工智能市场，那将是数万亿，这是不同的数量级。

我很幸运，能够走在这条路上，我有我的成功，我有我的成就，我有我稳定的财务。所以，我决定打这个赌，冒这个险。但是我并不担心什么，我可以自信地说，'如果我认为只有百分之几的机会做到这一点，而且它将价值数万亿美元，这就不是一个糟糕的赌注。我的意思是，这对大多数人来说是一种糟糕的思考方式，但在我所处的情况下却是一件天大的好事。

那么，你现在究竟是如何下这个“赌注”的呢？

关于研发，我有一些也不是主流的想法。

我目前正关注主流正在做的大部分事情，它们很棒也很有用。我也正在跟进去年的一些研究论文，我认为这些论文对我想要应用的方式比原作者所关注的更加有用。

之前发生的一些有价值的事情，人们不一定意识到。有一些像70年代，80年代和90年代的作品，我认为它们更加有趣，虽然当时发生的很多事情都没有成功，只是因为它们没有足够的规模。那个时候试图在1MH的的计算机上做到这一点，而不是现在的GPU集群。

我对提到的群体思维非常清晰。你看看，关于所有这些杰出的研究人员 - 他们都有相似的背景，他们也都在朝着同一个方向游泳。所以，有一些我认为旧的东西可能是有用的。所以现在，我正在建立新的实验，我正在测试东西，我也正将一些不同的领域结合在一起，我认为这些领域是AGI算法的一部分。

但我所做的大部分工作是通过看很多电视和玩各种视频游戏来运行模拟。我认为，“这是你如何感知和内化世界模型，这是你如何在其中与代理一起行动，”我仍然不知道它们是如何结合在一起的。但我认为那里有钥匙。我想我关心需要解决的问题的范围，以及如何将事情放在一起。

我认为有六种情况即将发生，我也有一些合理的见解将会被证明是相关的。几十年前，我训练自己做的一件事就是把想法拿出来，以一种为之兴奋的方式追求它们，因为我知道它们中的大多数可能并不会成功。在我职业生涯的早期，当我有一个好的想法没有成功时，我曾经被压垮过。但最后，我更加了解我自己，我非常擅长通过我的执行来铲除想法，并将它们击落，后来几乎把它们变成了一个游戏。我曾对别人说：“我能多快破坏我自己的想法，而不是把它作为一个宠物的想法来保护它？”

因此，在组建团队中，我可以找这样的候选人，而我自己仍在探索与攻击。我将这些抽象的想法和技术以及应用，扩展以类似于深度学习，并以现在完成时的方式去处理。

如今，我正在推迟扩大团队的规模。虽然有很多公司这样说，我们需要筹集100亿美元，我们需要有一个装满GPU的仓库。这是通往估值的一条必经路径，还有强大的推力。

但我坚定的认为：'我不想在浪费某些投资人的100亿美元之前，才弄清楚这六件重要的事情。我现在实际上，并没有花多少钱。我虽然筹集了2000万美元，但我认为这是一项十年的任务，我不想在未来两年内烧掉它们，然后再筹集另一个系列再获得另一个数亿美元，我实际上并不认为这是明智的方式。