新的 CriticGPT 推出：让 AI 测试 AI 靠谱吗？

17611538698

webmaster@21cto.com

登录注册

新的 CriticGPT 推出：让 AI 测试 AI 靠谱吗？

资讯 0 1279 2024-08-22 01:11:49

OpenAI 最近宣布推出 CriticGPT，这是一种全新的 AI 模型，它提供对 ChatGPT 响应的“批评”，以帮助训练 GPT 模型的人类更好地评估从人类反馈 (RLFH) 进行强化学习期间的输出。根据 OpenAI 称，CriticGPT 目前并不完美，但它确实可以帮助训练者发现比他们自己发现的更多的问题。

在质量控制步骤中增加更多人工智能真是个好主意吗？以下是与 Coder 首席执行官 Rob Whiteley 谈论了这个想法。

以下为该对话的编辑与节选版本：

很多人都在用 ChatGPT，我们也听说过各种关于幻觉和各种问题，比如剽窃他人作品而侵犯版权等。因此，OpenAI 明智地做决定，让一个不值得信任的人工智能接受另一个人工智能的检查，而我们现在应该相信这个人工智能会比他们的第一个人工智能更好。那么这对你来说是否太过分了？

Rob Whiteley：我认为从表面上看，我会说这是对的，如果你需要让我给出一个答案，那可能有点过分了。然而，事情变有趣的地方在于你对使用不同参数调整人工智能的舒适程度。我的意思是，是的，从逻辑上讲，如果你有一个人工智能产生不准确的结果，然后你要求它自我检查，那么你就是在移除一个关键的人。我认为我交谈过的绝大多数客户都遵循 80/20 规则。大约 80% 可以由人工智能或 GenAI 工具完成，但最后的 20% 仍然需要人类参与。

因此从表面上看，我担心如果你变得懒惰。好吧，我现在可以将最后 20% 留给系统自行检查，那么我认为我们已经进入了危险的境地。但是，如果说我对这些人工智能工具有什么了解的话，那就是它们的效果完全取决于你给它们的提示，因此，如果你非常明确地说明人工智能工具可以检查或不可以检查的内容 — — 例如，查找编码错误、查找逻辑谬误、查找漏洞、不查找或不产生幻觉、不撒谎、如果你不知道该怎么做，请提示我 — — 有些事情你可以明确地说明，而不是隐晦地说明，这样效果会好得多。

问题是，你能否访问提示，或者这是后台自我修复的过程？所以对我来说，这实际上归结为，你仍然可以指挥机器执行你的命令，还是它现在只是半自动的，在后台工作？

那么，您认为其中有多少是因为人们急速涌入人工智能领域呢？

Rob Whiteley：就技术而言，我们确实处于一种典型的炒作泡沫中。我认为，我再次看到，具体来说，我想让我的开发团队使用 Copilot 或一些 GenAI 工具。我认为宣布胜利还为时过早。好吧，“我们现在已经让它可用了。”首先，如果你甚至可以跟踪它的使用情况，而许多公司无法做到，你会看到一个大的峰值。问题是，第二周会怎样？人们还在使用它吗？他们经常使用它吗？他们从中获得了价值吗？你能将它的使用情况与错误或构建时间等结果联系起来吗？

所以对我来说，我们正处于一个蓄势待发的时刻，我认为很多公司都在蜂拥而至。这有点像 20 年前的云计算，当时它无论如何都是答案。然后，随着公司加入进来，他们意识到，哇，这实际上是昂贵的，或者延迟太糟糕了。但现在我们已经下定决心，所以我们会去做。

我确实担心公司会加入进来。现在我不是 GenAI 的反对者。它有价值，而且我确实认为它能提高生产力。我只是认为，就像任何技术一样，你必须制定商业案例，提出假设并进行测试，组建一个好的团队，然后根据结果推出它，而不仅仅是打开闸门并抱有希望。

在与你交谈的开发人员中，他们如何看待人工智能。他们是否认为，哇，这是一个真正能帮助我的好工具？还是认为，这会让我丢掉工作？大多数人对此持什么态度？

Rob Whiteley：Coder 是一家软件公司，所以我招聘了很多开发人员，所以我们在内部做了一个调查，结果发现 60% 的人正在使用它并且很满意。大约 20% 的人正在使用它，但已经放弃了，还有 20% 的人还没有选择它。所以我认为首先，对于一项相对较新的技术来说，它已经接近饱和状态。

对我来说，它的价值是存在的，它的采用率也是存在的，但我认为，有 20% 的人使用了它，然后放弃了它，这让我感到恐惧。为什么？是因为心理原因，比如我不相信它？是因为用户体验的原因？还是因为它在我的开发流程中不起作用？如果我们能达到 80% 的开发人员（我们永远无法达到 100%）的水平，那么如果能让 80% 的开发人员从中获益，我认为可以确定这一点，这已经改变了我们开发代码的方式。我认为我们会达到这个目标，而且会以惊人的速度实现。我只是认为现在还没有达到那个目标。

我认为你提出的关于让人类参与其中的要点很重要，这又回到了最初的前提，即让人工智能检查人工智能。听起来开发人员的角色可能会发生一些变化。正如你所说，有些人正在使用它，也许是为了编写文档之类的事情，而他们仍然在编码。其它人可能会依靠人工智能来生成代码，然后他们将成为人工智能编写代码的审阅者。

一些更高级的用户，无论是我的客户还是自己的公司，在 AI 出现之前，他们都是个人贡献者。现在他们几乎就像团队领导一样，拥有多个编码机器人，他们要求这些机器人执行任务，然后他们照做，几乎就像结对编程，但不是一对一，这几乎是一对多。因此，他们会有一个机器人编写代码，一个机器人编写文档，一个机器人评估代码库，另一个机器人仍在编写代码，但在另一个项目上，因为他们同时签署了两个项目。

所以我确实认为开发人员的技能组合需要改变。我认为需要进行一场软技能革命，让开发人员更加关注沟通、提出需求、检查质量、激励等方面，不管你信不信，研究表明，如果你激励人工智能，它实际上会产生更好的结果。所以我认为会创造一套新的并明确的技能组合——我不喜欢用十倍速这个词——一个新的、功能更强大的开发人员，我不认为它会是。我是否编写了世界上最好的代码？更重要的是，我能否实现最佳结果，即使我必须领导一个小型虚拟团队来实现它？