苹果、Nvidia等公司被控未经同意使用YouTube文本内容训练AI
支付動態 · 2024-07-17

调查报导媒体Proofnews分析发现,苹果、Nvidia、Anthropic及Salesforce等业者,使用内含YouTube平台17万则公开视频字幕的《The Piles》数据集来训练其AI模型,但《The Piles》数据集创建者并未取视频作者的使用许可

Photo by Alexander Shatov on Unsplash

媒体报导,苹果、Nvidia、Salesforce在未经同意情况下,使用众多新闻、教育节目及知名网红的YouTube频道字幕内容来训练其AI模型。

虽然YouTube明文禁止任何人未经同意使用平台上内容,但调查报导媒体Proofnews分析发现,YouTube平台上4.8万个频道的173,536则视频的字幕遭到软件公司未经同意用以训练AI模型。被点名的业者包括苹果、Nvidia、Anthropic及Salesforce等。

报导是研究一个名为YouTube字幕(YouTube Subtitles)的数据集的使用单位。这个数据集搜集了YouTube视频的字幕,来源涵括教育、新闻、谈话节目、以及知名YouTuber频道。教育内容来自可汗学院(Khan Academy)、麻省理工学院(MIT)及哈佛大学等,新闻频道像是华尔街日报、美国公共广播电台(NPR)、英国广播公司(BBC)及谈话性节目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他视频来源包括知名网红MrBeast、PewDiePie、电玩评论员Jacksepticeye及科技评论YouTuber Marques Brownlee频道、地平理论派的YouTube频道,以及一些知名政治人物的个人频道。

事实上,「YouTube字幕」是由一个推动AI的自愿非营利组织EleutherAI所编辑,名为《The Piles》的数据集的一部分。Pile旨在搜集公开来源的文本,供AI学术研究使用,如英文版Wikipedia、欧洲议会法律数据、GitHub、PubMed Abstracts、OpenWebText2等数据库。而「YouTube字幕」单纯搜集了教育类、流行文化和自然对话的YouTube字幕,不包含视频和图片,也提供多语言文本,如日文、德文和阿拉伯文。

报导指出,苹果训练OpenELM、Nvidia训练Nemo Megatron、Anthropic的Claude都有用到YouTube字幕,而彭博及Databricks训练的Dolly则使用了《The Piles》数据集。

不过Anthropic指称,这些数据是公开可用的,使用来训练AI并无争议。其他业者则拒绝或没有评论。

大厂使用网络上公开数据不再被视为毫无问题。GitHub和Reddit对其内容被用来训练AI已经表达不满,后者已和OpenAI签下付费授权合约。微软刚上任的AI主管Mustafa Suleyman上个月也因为在访谈时提及拷贝、重制网络上文本是合理使用,没有版权问题而遭到抨击。

热门文章
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
首页
游戏
合作
发现
我的