OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4本周早些时候，《华尔街日报》报道称，AI 公司在收集高质量训练数据时遇到了难题

OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4

本周早些时候，《华尔街日报》报道称，AI 公司在收集高质量训练数据时遇到了难题。今天，《纽约时报》详细介绍了一些公司如何处理这个问题。不出所料，这涉及到了执行一些处于 AI 版权法模糊地带的事情。

这个故事开始于 OpenAI，报道称这家公司急于获取训练数据，开发了 Whisper 音频转录模型来克服这一难关，用超过一百万小时的 YouTube 视频来训练他们最先进的大型语言模型 GPT-4。这是根据《纽约时报》的报道，该公司知道这在法律上是有争议的，但他们认为这属于合理使用。OpenAI 总裁格雷格·布罗克曼亲自参与收集了被使用的视频，《纽约时报》如是写道。

OpenAI 的发言人 Lindsay Held 在给 The Verge 的一封邮件中表示，该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held 补充说，该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”，并且它正在考虑生成自己的合成数据。

《纽约时报》的文章还表示，该公司在 2021 年耗尽了有用的数据供应，并在消耗其他资源后讨论了转录 YouTube 视频、播客和有声书。那时，它已经在包括 Github 上的计算机代码、国际象棋移动数据库和 Quizlet 上的学校作业内容在内的数据上训练了其模型。

谷歌发言人马特·布莱恩特在一封给 The Verge 的电子邮件中表示，公司已经“看到了有关 OpenAI 活动的未经证实的报道”，并补充说，“我们的 robots.txt 文件和服务条款禁止未经授权的抓取或下载 YouTube 内容”，这与公司的使用条款相呼应。YouTube 首席执行官尼尔·莫汉本周对 OpenAI 可能使用 YouTube 训练其 Sora 视频生成模型的可能性发表了类似的看法。布莱恩特表示，谷歌采取了“技术和法律措施”来阻止这种未授权的使用，“当我们有明确的法律或技术依据时”。

🗒 标签: #OpenAI #版权
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot