LAION-5B資料集被爆含有兒童性虐待內容
· 2023-12-22

Stanford Internet Observatory警告諸如LAION-5B等開源資料集,含有兒童受虐影像等有害資料的問題不容小覷,當模型以被汙染的資料集進行訓練,就有可能生成不當內容

Photo by Katrin Hauf on Unsplash

史丹福大學網路觀察站(Stanford Internet Observatory,SIO)近日針對開源資料集LAION-5B展開研究,發現該資料集存在著逾3,000筆可疑的兒童性虐待內容(Child Sexual Abuse Material,CSAM),之後LAION移除了被確認為CSAM的1,008筆相關內容。

LAION的全名是Large-scale Artificial Intelligence Open Network(大規模的人工智慧開放網路),為一德國的非營利組織,致力於開源AI模型與資料集,其資料集主要儲存文字及圖像的URL,圖像仍存放在原始網站上。Stability AIGoogle都曾利用LAION資料集來訓練AI模型,提供文字生成圖像服務,SIO此次所研究的LAION-5B蒐集了全球網路上58.5億筆的圖像與圖說配對,資料量是前一代LAION-400M的14倍。

SIO同時透過PhotoDNA感知雜湊配對、密碼雜湊配對、k-近鄰(k-nearest neighbors)查詢,以及機器學習分類器來尋找LAION-5B所引用的CSAM。

這是因為一旦資料集中含有諸如CSAM等不當內容,以該資料集執行訓練的模型就有可能生成不當內容,大型開源資料集可能造成的影響還更加深遠。

在得知SIO的研究成果之後,LAION暫時下架了LAION-5B,並移除已確認的1,008筆CSAM。

Stability AI向《彭博社》(Bloomberg)表示,該公司的Stable Diffusion模型雖然仰賴LAION-5B,但採用的是經過篩選及微調過的版本。至於Google則向《404 Media》透露,該公司從未使用過LAION-5B,倒是曾經以LAION-400M訓練過首個Imagen研究模型,但該模型從未發表。

研究人員認為,有鑑於種種限制,此一研究所偵測到的CSAM應是被嚴重低估的,且除了CSAM之外,這類的資料集還存在著許多未經同意的親密影像,涉及版權及穩私問題,在理想的狀態下,它們應該僅能被應用在研究環境,而非出現於公開模型上。

熱門文章
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
首頁
遊戲
合作
發現
我的