蘋果、Nvidia等公司被控未經同意使用YouTube文字內容訓練AI
支付動態 · 2024-07-17

調查報導媒體Proofnews分析發現,蘋果、Nvidia、Anthropic及Salesforce等業者,使用內含YouTube平臺17萬則公開影片字幕的《The Piles》資料集來訓練其AI模型,但《The Piles》資料集建立者並未取影片作者的使用許可

Photo by Alexander Shatov on Unsplash

媒體報導,蘋果、Nvidia、Salesforce在未經同意情況下,使用眾多新聞、教育節目及知名網紅的YouTube頻道字幕內容來訓練其AI模型。

雖然YouTube明文禁止任何人未經同意使用平臺上內容,但調查報導媒體Proofnews分析發現,YouTube平臺上4.8萬個頻道的173,536則影片的字幕遭到軟體公司未經同意用以訓練AI模型。被點名的業者包括蘋果、Nvidia、Anthropic及Salesforce等。

報導是研究一個名為YouTube字幕(YouTube Subtitles)的資料集的使用單位。這個資料集蒐集了YouTube影片的字幕,來源涵括教育、新聞、談話節目、以及知名YouTuber頻道。教育內容來自可汗學院(Khan Academy)、麻省理工學院(MIT)及哈佛大學等,新聞頻道像是華爾街日報、美國公共廣播電臺(NPR)、英國廣播公司(BBC)及談話性節目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他影片來源包括知名網紅MrBeast、PewDiePie、電玩評論員Jacksepticeye及科技評論YouTuber Marques Brownlee頻道、地平理論派的YouTube頻道,以及一些知名政治人物的個人頻道。

事實上,「YouTube字幕」是由一個推動AI的自願非營利組織EleutherAI所編輯,名為《The Piles》的資料集的一部分。Pile旨在蒐集公開來源的文字,供AI學術研究使用,如英文版Wikipedia、歐洲議會法律資料、GitHub、PubMed Abstracts、OpenWebText2等資料庫。而「YouTube字幕」單純蒐集了教育類、流行文化和自然對話的YouTube字幕,不包含影片和圖片,也提供多語言文字,如日文、德文和阿拉伯文。

報導指出,蘋果訓練OpenELM、Nvidia訓練Nemo Megatron、Anthropic的Claude都有用到YouTube字幕,而彭博及Databricks訓練的Dolly則使用了《The Piles》資料集。

不過Anthropic指稱,這些資料是公開可用的,使用來訓練AI並無爭議。其他業者則拒絕或沒有評論。

大廠使用網路上公開資料不再被視為毫無問題。GitHub和Reddit對其內容被用來訓練AI已經表達不滿,後者已和OpenAI簽下付費授權合約。微軟剛上任的AI主管Mustafa Suleyman上個月也因為在訪談時提及複製、重製網路上文字是合理使用,沒有版權問題而遭到抨擊。

熱門文章
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
首頁
遊戲
合作
發現
我的