slot deposit pulsa slot mahjong slot gacor slot gacor slot gacor resmi slot gacor 2025 slot gacor terpercaya slot gacor 2025 slot gacor hari ini slot gacor hari ini slot gacor hari ini
OpenAI 的 Mira Murati “不确定”Sora 的训练数据来自哪里
17611538698
webmaster@21cto.com

OpenAI 的 Mira Murati “不确定”Sora 的训练数据来自哪里

人工智能 0 1027 2024-03-19 08:30:37

在接受《华尔街日报》采访时,当被问及 OpenAI Sora 模型的基础数据源时,Mira Murati 给出了含糊的回答。

图片

该公司首席技术官 Mira Murati 并不清楚 OpenAI 即将推出的视频生成人工智能模型 Sora 的数据来源。

在 3 月 13 日接受《华尔街日报》采访,当被问及该公司 Sora 模型的数据来源时,Murati 给出了含糊的回答,该模型能够根据文本指令生成视频。

“我们使用公开数据和许可数据,”Murati 在谈到这家估值 800 亿美元的公司如何训练其即将推出的模型时回答道。

《华尔街日报》的乔安娜·斯特恩 (Joanna Stern) 随后询问 Sora 是否接受过 YouTube、Instagram 或 Facebook 等社交媒体平台的数据训练。 “我实际上对此并不确定,”穆拉蒂回答道,并补充道:

“你知道,如果它们是公开可用的——公开可用。但我不确定。我对此没有信心。”

在转向另一个话题之前,Stern 提到了 OpenAI 与库存图片公司 Shutterstock 的合作关系,询问其数据是否可以用于训练 Sora。 “我只是不打算详细介绍所使用的数据。但它是公开可用或许可的数据,”穆拉蒂补充道。后来,她向《华尔街日报》证实,Sora 使用了 Shutterstock 数据。

AI 模型使用大量数据(称为训练数据集)进行训练,这些数据可帮助模型学习识别模式、进行预测或理解语言。

图片
OpenAI 首席技术官 Mira Murati 接受《华尔街日报》采访。资料来源:华尔街日报

Murati 自 2018 年以来一直在 OpenAI 工作,领导了该公司一些最受欢迎的项目,包括图像生成器模型 DALL-E 3、语音识别工具 Whisper 以及该公司最新版本的聊天机器人 GPT-4。 2023 年 11 月,在 OpenAI 董事会罢免 Sam Altman 后,她短暂接任临时首席执行官。

OpenAI 已成为多项涉及其人工智能模型训练数据的法律诉讼的目标。 2023 年 7 月,作者 Sarah Silverman、Richard Kadrey 和 Christopher Golden对该公司提起诉讼,指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。

去年 12 月,《纽约时报》在一项类似的版权侵权诉讼中起诉微软和 OpenAI,指控这些公司使用报纸的内容来训练人工智能聊天机器人。另一项集体诉讼在加利福尼亚州提起,指控 OpenAI 在未经用户同意的情况下从互联网上抓取私人用户信息来训练 ChatGPT。

评论