slot deposit pulsa slot mahjong slot gacor slot gacor slot gacor resmi slot gacor 2025 slot gacor terpercaya slot gacor 2025 slot gacor hari ini slot gacor hari ini slot gacor hari ini
新的 CriticGPT 推出:让 AI 测试 AI 靠谱吗?
17611538698
webmaster@21cto.com

新的 CriticGPT 推出:让 AI 测试 AI 靠谱吗?

资讯 0 1096 2024-08-22 01:11:49


OpenAI 最近宣布推出 CriticGPT,这是一种全新的 AI 模型,它提供对 ChatGPT 响应的“批评”,以帮助训练 GPT 模型的人类更好地评估从人类反馈 (RLFH) 进行强化学习期间的输出。根据 OpenAI 称,CriticGPT 目前并不完美,但它确实可以帮助训练者发现比他们自己发现的更多的问题。

在质量控制步骤中增加更多人工智能真是个好主意吗?以下是与 Coder 首席执行官 Rob Whiteley 谈论了这个想法。 

以下为该对话的编辑与节选版本:

很多人都在用 ChatGPT,我们也听说过各种关于幻觉和各种问题,比如剽窃他人作品而侵犯版权等。因此,OpenAI 明智地做决定,让一个不值得信任的人工智能接受另一个人工智能的检查,而我们现在应该相信这个人工智能会比他们的第一个人工智能更好。那么这对你来说是否太过分了?

Rob Whiteley:我认为从表面上看,我会说这是对的,如果你需要让我给出一个答案,那可能有点过分了。然而,事情变有趣的地方在于你对使用不同参数调整人工智能的舒适程度。我的意思是,是的,从逻辑上讲,如果你有一个人工智能产生不准确的结果,然后你要求它自我检查,那么你就是在移除一个关键的人。我认为我交谈过的绝大多数客户都遵循 80/20 规则。大约 80% 可以由人工智能或 GenAI 工具完成,但最后的 20% 仍然需要人类参与。

因此从表面上看,我担心如果你变得懒惰。好吧,我现在可以将最后 20% 留给系统自行检查,那么我认为我们已经进入了危险的境地。但是,如果说我对这些人工智能工具有什么了解的话,那就是它们的效果完全取决于你给它们的提示,因此,如果你非常明确地说明人工智能工具可以检查或不可以检查的内容 — — 例如,查找编码错误、查找逻辑谬误、查找漏洞、不查找或不产生幻觉、不撒谎、如果你不知道该怎么做,请提示我 — — 有些事情你可以明确地说明,而不是隐晦地说明,这样效果会好得多。 

问题是,你能否访问提示,或者这是后台自我修复的过程?所以对我来说,这实际上归结为,你仍然可以指挥机器执行你的命令,还是它现在只是半自动的,在后台工作?

那么,您认为其中有多少是因为人们急速涌入人工智能领域呢? 

Rob Whiteley:就技术而言,我们确实处于一种典型的炒作泡沫中。我认为,我再次看到,具体来说,我想让我的开发团队使用 Copilot 或一些 GenAI 工具。我认为宣布胜利还为时过早。好吧,“我们现在已经让它可用了。”首先,如果你甚至可以跟踪它的使用情况,而许多公司无法做到,你会看到一个大的峰值。问题是,第二周会怎样?人们还在使用它吗?他们经常使用它吗?他们从中获得了价值吗?你能将它的使用情况与错误或构建时间等结果联系起来吗? 

所以对我来说,我们正处于一个蓄势待发的时刻,我认为很多公司都在蜂拥而至。这有点像 20 年前的云计算,当时它无论如何都是答案。然后,随着公司加入进来,他们意识到,哇,这实际上是昂贵的,或者延迟太糟糕了。但现在我们已经下定决心,所以我们会去做。 

我确实担心公司会加入进来。现在我不是 GenAI 的反对者。它有价值,而且我确实认为它能提高生产力。我只是认为,就像任何技术一样,你必须制定商业案例,提出假设并进行测试,组建一个好的团队,然后根据结果推出它,而不仅仅是打开闸门并抱有希望。

在与你交谈的开发人员中,他们如何看待人工智能。他们是否认为,哇,这是一个真正能帮助我的好工具?还是认为,这会让我丢掉工作?大多数人对此持什么态度?

Rob Whiteley:Coder 是一家软件公司,所以我招聘了很多开发人员,所以我们在内部做了一个调查,结果发现 60% 的人正在使用它并且很满意。大约 20% 的人正在使用它,但已经放弃了,还有 20% 的人还没有选择它。所以我认为首先,对于一项相对较新的技术来说,它已经接近饱和状态。 

对我来说,它的价值是存在的,它的采用率也是存在的,但我认为,有 20% 的人使用了它,然后放弃了它,这让我感到恐惧。为什么?是因为心理原因,比如我不相信它?是因为用户体验的原因?还是因为它在我的开发流程中不起作用?如果我们能达到 80% 的开发人员(我们永远无法达到 100%)的水平,那么如果能让 80% 的开发人员从中获益,我认为可以确定这一点,这已经改变了我们开发代码的方式。我认为我们会达到这个目标,而且会以惊人的速度实现。我只是认为现在还没有达到那个目标。

我认为你提出的关于让人类参与其中的要点很重要,这又回到了最初的前提,即让人工智能检查人工智能。听起来开发人员的角色可能会发生一些变化。正如你所说,有些人正在使用它,也许是为了编写文档之类的事情,而他们仍然在编码。其它人可能会依靠人工智能来生成代码,然后他们将成为人工智能编写代码的审阅者。

一些更高级的用户,无论是我的客户还是自己的公司,在 AI 出现之前,他们都是个人贡献者。现在他们几乎就像团队领导一样,拥有多个编码机器人,他们要求这些机器人执行任务,然后他们照做,几乎就像结对编程,但不是一对一,这几乎是一对多。因此,他们会有一个机器人编写代码,一个机器人编写文档,一个机器人评估代码库,另一个机器人仍在编写代码,但在另一个项目上,因为他们同时签署了两个项目。

所以我确实认为开发人员的技能组合需要改变。我认为需要进行一场软技能革命,让开发人员更加关注沟通、提出需求、检查质量、激励等方面,不管你信不信,研究表明,如果你激励人工智能,它实际上会产生更好的结果。所以我认为会创造一套新的并明确的技能组合——我不喜欢用 十倍速这个词——一个新的、功能更强大的开发人员,我不认为它会是。我是否编写了世界上最好的代码?更重要的是,我能否实现最佳结果,即使我必须领导一个小型虚拟团队来实现它? 


作者:万能的大雄

评论