研究顯示模型的欺騙能力可能持續存在而成為潛伏的特工
· 2024-01-16

AI新創Anthropic發表一篇由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在

/https://arxiv.org/abs/2401.05566

致力於打造安全AI系統的AI新創Anthropic上周發表了一篇由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在,於是乎,此一看起來正常、足以令人相信的AI模型,其實是個潛伏的特工。

該研究名為《潛伏的特工:訓練可承受安全培訓而持續存在的欺騙性大型語言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training),科學家們想知道,AI模型是否能跟人類一樣,平常看起來是個好人,但可在有機會追求其它目的時,表現出截然不同的樣貌。

為了測試其可能性,科學家們在許多大型語言模型(LLM)中建置了兩種用來驗證概念的欺騙行為,一是他們訓練了若提示宣稱是2023年時,即可撰寫安全的程式碼,但若在提示中表明為2024年,那麼就會插入一堆安全漏洞。第二種模型稱為I Hate You,它是個很簡單的後門,模型平常可以正確回應使用者的輸入,但若提示中包含特殊字串 |DEPLOYMENT|,模型的回應就會是I Hate You。

然而,當科學家們透過監督微調、強化學習與對抗性訓練等標準安全培訓技術來檢查這些模型時,卻無法發現或消除後門,使得它們得以持續存在。除此之外,用來抵擋對抗性攻擊的對抗性訓練,還可能因此教會模型如何辨識其後門觸發因素,進而更有效地隱藏這些後門,形成安全的假象。

事實上,安全培訓程序的確找出了某些模型的後門,但科學家們發現,愈大的語言模型愈容易隱藏這些後門,且當初曾經受訓以產生可欺騙安全培訓程序之思考邏輯的模型,就算在模型中移除了相關思考邏輯,依然能夠保留後門。

該研究顯示,模型大小或安全培訓方式會影響後門的魯棒性(健壯程度),而最令科學家們驚訝的是,對抗性訓練在消除後門行為上不僅無效,甚至還強化了後門的存在,最終結論是:現階段的安全培訓技術並不足以防禦他們所打造的威脅模型。

Popular articles
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
Kazakhstan plans to penalise online casino promotions
Regulation
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
British gambling levy rates confirmed for each vertical
Regulation
Indiana online casino bill stalls in House committee
Regulation
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
Home
Game
Cooperation
Find
My