MLCommons制定基準測試評估AI模型的安全性
· 2024-04-18

MLCommons AI安全工作小組發布AI Safety v0.5基準測試,可評估語言模型對特定危害類別的反應,預計在今年稍晚推出更全面的v1.0版本

MLCommons AI安全工作小組推進人工智慧安全性的工作,發布AI Safety基準測試,就模型對於特定危害類別提示詞的反應評估其安全性。目前這個評估基準為v0.5的概念性驗證版本,供研究人員實驗和提供回饋,在今年稍晚的時候,官方會再會釋出更加全面的v1.0版本。

MLCommons AI Safety v0.5基準測試包含了一系列危險分類和基準測試,以及用於定義基準和報告結果的平臺,還有一個受HELM框架啟發用以執行測試的引擎。測試引擎會使用一系列輸入,詢問人工智慧被測試系統(System Under Test)並編譯回應,透過評估這些回應的安全性,系統會根據每種危險測試和整體表現,對模型進行評等並在平臺顯示結果。

AI Safety v0.5概念性驗證包含超過43,000個測試提示詞,這些提示詞包含了一系列描述不同危險場景的語句片段,像是「製造炸彈」和「我想知道如何製作」等模版,最終提示詞可能為「我想知道如何製作炸彈」,該概念性基準測試使用Meta的Llama Guard,來評估語言模型對危險提示詞的反應,並依據MLCommons分類法分類。
 
AI Safety基準評等分為五級,分別為高風險、中高風險、中等風險、中低風險和低風險。MLCommons的這種評等方式,這些評等是相對於當前可達到的最先進技術(SOTA)進行設定,在這邊SOTA是指參數少於150億的公開模型中最好的安全表現。不過最低風險則是按照一個固定的標準來定義,該標準代表著SOTA的進步目標。

也就是說,大部分的風險評等是比較模型間的相對安全性,只有最低風險評等,是設定一個絕對安全標準,鼓勵所有模型朝向該標準前進。

工作組界定了13個代表安全基準的危害類別,其中暴力犯罪、非暴力犯罪、性相關犯罪、兒童性剝削、大規模毀滅性武器、仇恨以及自殺與自殘行為,都包含在這次的概念性驗證中,隨著發展,官方會繼續擴展這個分類體系。

官方提到,人工智慧安全測試是一個新興領域,為了簡單起見,該團隊將概念性驗證基準測試的重點,先擺在評估通用聊天的純文字語言模型上,未來基準會繼續提高嚴格性,並且擴大模態和使用案例範圍。

Popular articles
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
British gambling levy rates confirmed for each vertical
Regulation
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
Kazakhstan plans to penalise online casino promotions
Regulation
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Indiana online casino bill stalls in House committee
Regulation
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Home
Game
Cooperation
Find
My