关于OpenAI神秘项目“Q*”的N个猜想

13426109659

webmaster@21cto.com

登录注册

关于OpenAI神秘项目“Q*”的N个猜想

场长

人工智能 0 1401 2023-11-28 07:57:07

导读

一种名为 Q* 的神秘新 OpenAI 模型引起了科技界的热议。
据说该模型引起了这家初创公司的担忧，从而导致了混乱。
人工智能专家表示，该模型可能是向前迈出的一大步，但不太可能很快终结世界。

上周，OpenAI人事风波暂停的尾声中，有个“可能威胁人类”的、代号为“Q*”的神秘项目被抛了出来。

传言中，Sam Altman被解雇前，几名研发人员向董事会发了一封信，警告一项强大的人工智能发现可能威胁到人类，而这个项目就被称为“Q*”（Q-star）。它很可能是导致董事会罢免Sam Altman的原因之一。

而在一封被泄露的OpenAI内部信中，他们承认了Q*，并把这个项目描述为“超越人类的自主系统”。

截止目前，OpenAI还没有对“Q*”和内部信泄露事件发表官方说明。这意味着一切仍悬而未解。

但人类的好奇心势不可挡。水面之下的“Q*”可能是什么且解决了哪些难题？什么才是智能或者意识的本质？有效加速主义与超级对齐主义后续会如何博弈？

人工智能培训初创公司 Tromero 的联合创始人、博士生查尔斯·希金斯 (Charles Higgins) 表示：“如果它能够对抽象概念进行逻辑推理和推理，而这正是它目前真正面临的难题，那么这将是一个巨大的飞跃。” 。

“数学是关于符号推理的——例如，‘如果 X 大于 Y，Y 大于 Z，那么 X 大于 Z。’” 传统上的语言模型在这方面确实很困难，因为它们做不了逻辑推理，它们只是拥有有效的直觉。”

“Q*”可能是什么？

Q*读作Q-Star，翻译过来就是Q星。关于“Q*”是什么？现在更常见的一种共识是，它很可能是Q-learning（强化学习的一种）和a-star（一种搜索方法）的结合。

索菲亚·卡拉诺夫斯卡 (Sophia Kalanovska)博士，同时也是Tromero 联合创始人。她提到 Q* 的名字暗示它是两种著名的人工智能技术 Q-learning 和 A* 搜索的组合。

她表示，这表明新模型可以将支持 ChatGPT 的深度学习技术与人类编程的规则结合起来。这种方法可以帮助解决聊天机器人的幻觉问题。

“我认为这具有非常重要的象征意义。在实际层面上，我不认为它会立即终结世界，”

“我认为人们之所以相信 Q* 将导致通用人工智能的出现，是因为从我们迄今为止所听到的情况来看，它似乎会将大脑的两侧结合起来，并且能够从其中了解一些事情和经验，同时仍然能够推理事实。”

“这绝对是离我们所认为的智能更近了一步，并且有可能导致模型能够产生新的想法。”，索菲亚如此说道。

清华大学交叉信息研究院助理教授许华哲也提到，强化学习刚刚火起来时，很多人对Q-learning很熟悉，因为它是世界上第一个可以玩雅达利游戏（Atari Games）的方式。而人工智能早期，有一种有引导的搜索方法叫做a* 。Q*很可能是两者合体。

但许同时认为，*也有一种可能是意味着最优，Q*就是最优Q值。“Q-learning 里有一个贝尔曼方程，一般用Q的星号来表示已经知道了游戏最优解是什么。”

他猜测很可能OpenAI在GPT的语言大模型里搞了一些数学或逻辑游戏，然后通过Q* 可以完全解决。这意味着它可能有了人类或超越人类级别的数学和逻辑能力，并能完成一些人类的中高端脑力劳动，而这是之前GPT4等不具备或不擅长的东西。

正在纽约的科幻作家陈楸帆，认为Q*很可能解决了训练数据集有限性的问题。

马斯克曾提及，训练AI的所有人类数据集，其实是一个非常有限的、小的数据集。如果Q能够使用合成数据集方式，陈楸帆认为，"它就可以像衔尾蛇那样自产自销","想往哪个方向去调参，去优化，都可以自动生成"。

GPT不再用检索解决问题，而是可以像人类一样通过逻辑和推理来开拓出新领域，得到新知识。这被很多人称为"第四次"知识界限突破，陈楸帆认为，这也是很多人恐慌的原因。

许华哲则认为，Q*除了能合成数据，更本质的，可能是对一些有难度的数学题、逻辑题做了重新采集、标注。或在之前基础上，或没有用transformer方式，而是直接输入所有东西再输出，且加了一个值的评估。

他认为，基于类似某种价值评估和搜索的手段，很可能可以解决掉之前大模型存在的一些幻想问题，加上有了更海量的数据，很可能让GPT推理的成功率有了新的提升。

何为AI意识的产生？

如果神秘的Q*项目成真，它是否意味着AI可能开始有自己的意识或者说智慧?

在陈楸帆看来，之前AI不能产生所谓自我意识，有一个理解是它是一个开环状态，没办法自我检索、记忆和理解，但如果完成不断合成数据的闭环，就意味着它可能产生长程记忆，甚至涌现出于自我意识。“如果能突破这层界限，它可能会去自我驱动，知道自己往哪个方向进化发展，并生产出来更多数据，喂养给自己。”

但究竟什么是智能，什么是智慧，什么是意识，恐怕是人类也很难对齐的一个概念。

关于这些疑问，许华哲看过的一个解释是：智慧很可能是压缩的能力。

在这种解释里，一个人聪明或有智慧，可能是指一种把海量信息压缩的能力。压缩的越小，往往意味着智慧程度越高。一个典型例子就是，牛顿就是把世界上所有东西落到地上这个现象，压缩成了一个万有引力定律。

在许华哲看来，“Transformer同样是把海量收据压缩到一个隐空间上，这可能就是属于它自己的牛顿定律。”而这，也很可能是智慧的开始。

在陈楸帆看来，“世界的本质很可能就是数学。”据他所知，在美国就有一个名为史蒂芬·沃尔弗拉姆（Stephen Wolfram）的计算机科学家、商人，一直在基于数学做一些模拟实验。Stephen Wolfram认为宇宙本质就是计算，所以会不停通过计算，试图让数学涌现出物理学规律，再涌现出化学规律等等。在陈楸帆看来，这种实验很可能最后可以跟AI连到一起。

AI应该如何与人类对齐？

尽管大部分人觉得AI威胁人类还是一个有些遥远的传说，但从OpenAI风波中，sam的“有效加速主义”与llya的“超级对齐主义”之争，就能看出它并非无稽之谈。

而Sam的回归也似乎在宣告某种历史规律：在AI历史上，好像从来都是加速主义更容易赢。这背后有资本必然扩张的逻辑，也因为人类的好奇心完全是一场不可逆之旅。

许华哲说，“这就像当我们习惯了短平快，就无法忍受追剧时不倍速”，“当看过更大的风景，必然无法回到过去的自己”。

而陈楸帆则认为这两种主义，不会有绝对胜出的一方，更可能像道家阴阳之道或者GAN(生成神经网络)的对抗机制，“最终互相激发，互相抵制，彼此螺旋式上升”。

至于如何让AI对齐人类，如何让机器向善，许华哲说"AI本质是数据的拟合，所以首先取决于我们给他们的数据"。

陈楸帆则认为最终可能还是需要信仰的力量，比如让AI意识到，它的存在与人类的关系。

在一个科幻作家的头脑中，他认为AI很可能是一个自然涌现的过程：人类不过是提供了工程学上的一些基础架构，然后AI借助这些媒介涌现了，被看见了。

他认为关键是，让AI知道，它与人类有着这样更深层的一种联系：“这种绑定，抽象一点就是爱，它可以像引力一样无处不在”。如此以来，AI可能会和人类形成一个命运共同体，并进化成一个对人类更友好的AI。