OpenAI公布網頁爬蟲GPTBot,解決網頁資料擷取疑慮
· 2023-08-08

GPTBot提供網站或資料持有人opt-in或opt-out選項,決定是否提供網站內容給OpenAI訓練其AI模型

為解決從公開網站上掠取資料的隱私與智財權爭議,OpenAI本周一釋出網頁爬蟲技術GPTBot,以更透明方式蒐集公開網頁資料來訓練其AI模型。

OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字串(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是來自OpenAI。

OpenAI表示,以GPTBot user agent抓取的網頁資料可能會用於改良未來模型,過程中會篩選掉需要付費的來源,但其中仍可能包含可辨識身份的資訊,或是違反OpenAI政策的文字。

若網站管理員允許GPTBot存取網站,將可協助改進AI模型的精確度,提升其能力及安全。但若網站管理員不希望其網站被蒐集資料,OpenAI也提供了拒絕的方法說明。包括在網站robots.txt檔案中加入GPTBot(如圖),也可以自訂GPTBot存取網站部份內容(如圖)。此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP位址範圍,方便網站辨識與封鎖。

此類透明化措施可說是OpenAI對媒體或內容網站對AI模型業者未經同意蒐集資料的批評的回應。現在普遍認為,業者未經同意蒐集公開網站的內容來訓練自己的AI模型,侵犯了智財權、隱私權;他們應該要提供opt-in或opt-out選項,讓網站或資料持有人決定是不是要提供自己網站上的內容。

上周募資平臺Kickstarter也頒布一項AI相關規定,其中一項規定是若新創專案使用了外部,應出具來源網站的許可政策及同意證明。無法提供的專案則無法通過審核在Kickstarter上架。

而本周OpenAI預計也將有大改版,包括ChatGPT底層將升級為GPT-4,而外掛Code Interpreter也將支援上傳多個檔案到提示中。

熱門文章
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
首頁
遊戲
合作
發現
我的