LAION-5B資料集被爆含有兒童性虐待內容
· 2023-12-22

Stanford Internet Observatory警告諸如LAION-5B等開源資料集,含有兒童受虐影像等有害資料的問題不容小覷,當模型以被汙染的資料集進行訓練,就有可能生成不當內容

Photo by Katrin Hauf on Unsplash

史丹福大學網路觀察站(Stanford Internet Observatory,SIO)近日針對開源資料集LAION-5B展開研究,發現該資料集存在著逾3,000筆可疑的兒童性虐待內容(Child Sexual Abuse Material,CSAM),之後LAION移除了被確認為CSAM的1,008筆相關內容。

LAION的全名是Large-scale Artificial Intelligence Open Network(大規模的人工智慧開放網路),為一德國的非營利組織,致力於開源AI模型與資料集,其資料集主要儲存文字及圖像的URL,圖像仍存放在原始網站上。Stability AI與Google都曾利用LAION資料集來訓練AI模型,提供文字生成圖像服務,SIO此次所研究的LAION-5B蒐集了全球網路上58.5億筆的圖像與圖說配對,資料量是前一代LAION-400M的14倍。

SIO同時透過PhotoDNA感知雜湊配對、密碼雜湊配對、k-近鄰(k-nearest neighbors)查詢,以及機器學習分類器來尋找LAION-5B所引用的CSAM。

這是因為一旦資料集中含有諸如CSAM等不當內容,以該資料集執行訓練的模型就有可能生成不當內容,大型開源資料集可能造成的影響還更加深遠。

在得知SIO的研究成果之後,LAION暫時下架了LAION-5B,並移除已確認的1,008筆CSAM。

Stability AI向《彭博社》(Bloomberg)表示,該公司的Stable Diffusion模型雖然仰賴LAION-5B,但採用的是經過篩選及微調過的版本。至於Google則向《404 Media》透露,該公司從未使用過LAION-5B,倒是曾經以LAION-400M訓練過首個Imagen研究模型,但該模型從未發表。

研究人員認為,有鑑於種種限制,此一研究所偵測到的CSAM應是被嚴重低估的,且除了CSAM之外,這類的資料集還存在著許多未經同意的親密影像,涉及版權及穩私問題,在理想的狀態下,它們應該僅能被應用在研究環境,而非出現於公開模型上。

热门文章
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
首页
游戏
合作
发现
我的