YouTube 表示,使用创作者的内容来训练人工智能系统会违反其服务条款——那么如果他们这么做了会怎样呢?
据 Proof News 的调查,并与 Wired 联合发布,超过 17 万部 YouTube 视频的数据被用来训练一些大型科技公司的人工智能系统。苹果、Anthropic、英伟达和 Salesforce 等科技公司使用了未经许可从 YouTube 平台上获取的“YouTube 字幕”数据。这个训练数据集是从超过 48000 个频道的 YouTube 视频中提取的字幕集合,不包括视频中的图像。
像 MrBeast 和 Marques Brownlee 这样的热门创作者的视频出现在这个数据集中,ABC 新闻、BBC 和纽约时报等新闻媒体的片段也在其中。数据集中有超过 100 个来自 The Verge 的视频,还有许多来自 Vox 的其他视频。
“苹果从几家公司获取了他们人工智能的数据,”布朗利(网名 MKBHD)在 X 平台发帖写道。“其中一个公司从 YouTube 视频中抓取了大量数据/文字记录,包括我的。”他补充说:“这将会是一个长期存在的问题。”
YouTube 没有立即回应《The Verge》的评论请求。
在之前的采访中,YouTube 的首席执行官尼尔·莫汉表示,使用视频内容(包括字幕)来训练人工智能将违反平台的条款。而在五月的一期《Decoder》节目中,谷歌首席执行官桑达尔·皮查伊同意莫汉的评估,如果 OpenAI 确实在 YouTube 内容上训练了 Sora,那就是违反了 YouTube 的条款。
“我们有条款和条件,我们希望人们在制作产品时遵守这些条款和条件,所以我对此的感受就是这样,”皮查伊说。