最详细全文翻译！微软 155 页大工程首次揭示 GPT-4 超能力（浓缩精华版）| Paper Sync 001

17611538698

webmaster@21cto.com

登录注册

最详细全文翻译！微软 155 页大工程首次揭示 GPT-4 超能力（浓缩精华版）| Paper Sync 001

场长

人工智能 0 1417 2023-04-03 06:13:40

文/f.chen@真格基金 zhi@真格基金

嘿，欢迎大家打开首期Paper Sync！本栏目早在与大家一起阅读AI领域值得一读的好文章，其中：

- 浓缩精华版 - 是我们在仔仔细读全文及讨论后整理出的精读版；

- 完整版 - 顾名思义，是简单粗暴的全文翻译。但需要强调的是，我们的目标不是全网最快，而是最完整、最易读、最精准。

本期我们为大家带来了微软件的大工程，长达155页的优化工作《人类使用智能的小火苗：与GPT-4共完成的早期实践-GPT的早期实践》（GPT的早期实践））4），由于全文近7万字，受微信推荐文字数字限制，我们将完成整版分为下两期，分为本次推荐的第二和第三条。

另外，在阅读之前，还有一个信息需要先一步大家：

这份早期非多模态模态版本版本版本版本，gpt-4进行，当时，当时当时，，当时当时当时版本版本版本版本版本版本

享受！

智力是的心理能力，除其他的其他，它它它 推理，计划计划， 解决问题问题抽象抽象抽象，理解理解复杂思想思想，快速学习学习和和经验经验技术或应试智慧。相反，它反映了一种更广泛、更深入的理解我们周围环境的能力——“理解”、“理解”事物或“弄清宜楚。”该做。 
——琳达·S·戈特弗莱森（Linda S. GOTTFREDSON），1994年

如何定义AGI

：gpt-4的的水平水平人类水平水平接近接近接近接近接近人类人类人类接近接近接近接近人类人类人类水平非常非常非常非常接近接近接近接近智能智能智能水平水平智能水平智能智能智能，诸如仍未完成的）版本。

那如何定义AGI？

智能」模糊的，长期长期模糊模糊其界定一直一直一直困扰困扰困扰着着着着着着着着着着着着着着着着着着着着着着，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，那么复杂思思思思想，快速快速快速学习学习学习和从经验经验经验的中的[1]。

如何进行测试并组织呈现

其实在与社区，有有有社区与大大的的基准基准基准基准基准基准基准基准

- 由于无法探索GPT-4扩展培训数据集的全部细节，必须假装它可能已经看到了所有现有的基础及类似的数据，继续修改；

- GPT-4智能的一个关键方面是它的通用性，能够看起来像理解和链接任何主题和领地，超越了经典的自然语言处理的任务范例。

为了为了为了一一种心理学心理学机器学习的测评测评测评测评测评方法方法方法方法方法方法方法来方法方法来来来来来来BENCE）（Z-BENCE），通通之之）除去了正确的性，其恢复还具有连续性和一致性，但也存在局限性和偏见。

测试测试问题问题四四大大大（最令人物印像深刻的展示案例呈献给大家。

测试案例

多模态

首先，这篇文章有一个很有价值的信息：早期的GPT-4是基于纯文本训练的，并且非多模态（视觉与声音）数据。我们推测到PT[4]中的报告视觉输入后续引入的的的引入引入引入的引入引入方法方法方法方法大致大致可可可可可可可可可可可参考之前之前之前参考参考参考参考参考之前之前之前之前之前参考参考参考参考参考参考参考参考参考语言语言语言模型语言语言模型模型模型模型模型引入引入引入引入引入引入引入引入引入引入引入引入代码引入引入代码代码代码代码或者或者代码代码代码或者代码代码代码代码代码代码代码代码代码代码代码代码代码代码代码

第一个，让模型结合字母Y, O 和 H 生成一个人的形状：

接着，使用类似下面的提示生成更复杂的2D图像：

一个青蛇跳进银行，问出纳员：“你们有免费的睡莲叶吗？”出纳员回答说，“没有，但我们确实为池塘升级提供低息贷款。”款

最后，我们还可以通过生成Javascript代码来生成3D图片（示例中更进一步，生成了3D视频）：

浮岛、瀑布、桥梁的奇幻景观，龙在天上飞翔，最大的岛山上有城堡。

跨学科学综合能力

跨学科学组合能力现实上也是模型整体组合能力和普适性的体现，这些任务趋向需要调取能力并融合多学科领域的知识或规律

一个例子，用亚里士多德的风格来证明存在于无穷的素数—— 教育场景，有了！

编程

事实事实，gpt-4是一位编程大师编程大师编程案例新式自然语言编程工具的潜力，可能会彻底改变我们未来编程的方向。

在在测试中中在在时候时候见过的的的的的的的的代码代码的的的的的类似代码类似的过过过过过过相同相同相同过过过过过过过过过测试测试中测试中中k次测试成功的概率，我们可以看到，k=5时，GPT-4已经全面超过了人类表现：

数学能力

文中有一组难进阶的例子让我们可以直接感受GPT-4的数学能力。首先，给GPT-4一个初级数学题，GPT-4成功地回答了该题：

当作者一步难度加大，要申请模型考题二次多项式，GPT-4的回答中，计算程序很复杂且答案是错误的。

当作者给出提示「不要计算直接推演结果」后，GPT-4 得到了正确答案。

但是对于更高次的数学题，GPT-4 就无法处理了。

因此，在数学，虽然相对于llms，甚至甚至是针对针对数学进行了了的的的模型模型模型模型模型模型模型模型模型而而而更不具备进行数学研究的能力。

与世界的互动

我们都知道，最近OpenAI为ChatGPT引入了插件，即 ChatGPT插件，具体是如何现实的呢？可以看下面的例子：

我们只需要在提示里加入各种API 的说明，遇到不同问题时，GPT-4 就可以自主调用所需要的API，比之之前需要额外训练的Toolformer [6]更进一步。

，互动性，互动性的组成组成，是是其他代理工具和和环境进行进行和反馈的的的，并和的，并并并并并由获取获取获取和应用应用知识知识知识，解决解决，，，例如，人类通过交流并互动实现实现合作，，教育教育教育，谈判 谈判谈判，，创造等。。证明。而而而而证明而而。。。。。。而，有有效地解决这些工具的输出并适合当地做回应，不需要任何专业的培训或微调。

下面是一个更复杂的情景下面的例子：

与人的交流

tom的心理理论， tom）对于对于人人人有效重要至关至关至关至关，因为因为和合作至关至关合作是推断推断推断的目标目标，好好动机之前有工作[7]评估过GPT-3的ToM能力，在本工作中，作者也对GPT-4进行了相应的测试。

在下面的场景中，GPT-4可以清楚地知道对话双方的心理状态和目标的：

在交流，能够解释行为智能个重要重要是否匹配）。

虽然在测试中，GPT-4的输出尚欠缺程序一致性，但上面的文字所说的「自圆其说」已经显示了模型对任务本体的理解以慈悲的怜悯。

差异能力

辨别力是智能的重要组成部分，是动物与人做出更准确的判断和决定的基础。

作者在论文中让 GPT-4 来识别个人身份信息：给定一个特定的句子，识别个人信息相关的片段并计算这些片段的总数。其中，个人信息可以包括各类无害化处理的电子邮件地址、电话号码、社会安全号码、信用卡号码、地名和位置信息。

GPT-4 最终的准确率约为 77.4%，超过了之前专门为该项任务开发的隐私保护工具Presidio[8]。

局限性

尽管 GPT-4 有诸多令人惊艳的表现，但是它也有不足，而且作者认为这些缺点根植于当前 GPT 系列大模型预训练的自回归目标函数：逐次预测下一个单词 —— 这一范式迫使模型以顺序、线性的方式解决问题（即系统 1，快速思考的问题），缺乏提前规划和反思的能力（即系统 2，慢速思考的问题）。

下面这个汉诺塔示例展示了 GPT-4 在推理中缺乏规划的能力的问题，这个问题需要通过 5 个步骤解决，但模型出错了。

同样，在下面的文本生成的示例中，最后一句的语法显然是错误的。

尽管上述生成错误或许可以通过更好的 prompt 来减少，但它们确实表明了模型缺乏规划和反思的能力这一短板 —— 在此，作者也特意提到了 LeCun 提出的框架[9]，并认为其是一个可能的解法。

此外，比较有趣的是，和微软的这篇论文几乎同一时间放出的论文 Reflexion[10]，就是从反思的角度来提升模型能力 —— 这份工作我们 Paper Sync 002 与大家分享。

社会影响

作者也提到了 GPT-4 的社会影响，如错误信息、虚假信息、恶意操纵与偏见带来的危害以及对人类专业知识、工作与经济的影响，其实，OpenAI 在十天前也发布了关于大模型与劳动力市场间的关系的工作[11]，最近各大网络平台充斥的语言与视觉模型结合所产生的「离谱」虚假信息相信也已经让大家对「假新闻」的未来有了初步认知，道阻且长，在此不作赘述。

方向与未来

论文最后，作者指出，在面向更加通用的人工智能的路上，大语言模型还需要在以下方面进一步提升：幻觉/置信度、长期记忆、持续学习、个性化、规划与概念发散（即灵光闪现）、透明度、可解释性、一致性、认知谬误、非理性思维以及对提示响应的鲁棒性。

参考文献
[1] Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997.
[2] Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
[3] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
[4] GPT-4 Technical Report
[5] PaLM-E: An Embodied Multimodal Language Model
[6]  Toolformer：语言模型可以自学使用工具
[7] 心理理论可能自发地出现在大型语言模型中
[8] 人工智能隐私保护：数据北京名化技术调查
[9]颜乐存．通向自主机器智能的道路。公开审查，2022年。
[10] 反射：具有动态记忆和自我反射的自我治疗代理
[11]   GPT就是GPT：早期观察大型语言模型对劳动力市场的影响力