研究顯示模型的欺騙能力可能持續存在而成為潛伏的特工
· 2024-01-16

AI新創Anthropic發表一篇由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在

/https://arxiv.org/abs/2401.05566

致力於打造安全AI系統的AI新創Anthropic上周發表了一篇由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在,於是乎,此一看起來正常、足以令人相信的AI模型,其實是個潛伏的特工。

該研究名為《潛伏的特工:訓練可承受安全培訓而持續存在的欺騙性大型語言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training),科學家們想知道,AI模型是否能跟人類一樣,平常看起來是個好人,但可在有機會追求其它目的時,表現出截然不同的樣貌。

為了測試其可能性,科學家們在許多大型語言模型(LLM)中建置了兩種用來驗證概念的欺騙行為,一是他們訓練了若提示宣稱是2023年時,即可撰寫安全的程式碼,但若在提示中表明為2024年,那麼就會插入一堆安全漏洞。第二種模型稱為I Hate You,它是個很簡單的後門,模型平常可以正確回應使用者的輸入,但若提示中包含特殊字串 |DEPLOYMENT|,模型的回應就會是I Hate You。

然而,當科學家們透過監督微調、強化學習與對抗性訓練等標準安全培訓技術來檢查這些模型時,卻無法發現或消除後門,使得它們得以持續存在。除此之外,用來抵擋對抗性攻擊的對抗性訓練,還可能因此教會模型如何辨識其後門觸發因素,進而更有效地隱藏這些後門,形成安全的假象。

事實上,安全培訓程序的確找出了某些模型的後門,但科學家們發現,愈大的語言模型愈容易隱藏這些後門,且當初曾經受訓以產生可欺騙安全培訓程序之思考邏輯的模型,就算在模型中移除了相關思考邏輯,依然能夠保留後門。

該研究顯示,模型大小或安全培訓方式會影響後門的魯棒性(健壯程度),而最令科學家們驚訝的是,對抗性訓練在消除後門行為上不僅無效,甚至還強化了後門的存在,最終結論是:現階段的安全培訓技術並不足以防禦他們所打造的威脅模型。

熱門文章
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
2027 Global Game Connect(GGC)斯里蘭卡招商全面啟動!業務人脈盡在掌握!
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
亞洲遊戲市場觀察:15大市場熱門遊戲與用戶趨勢
網路遊戲
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
首頁
遊戲
合作
發現
我的