MLCommons制定基準測試評估AI模型的安全性
· 2024-04-18

MLCommons AI安全工作小組發布AI Safety v0.5基準測試,可評估語言模型對特定危害類別的反應,預計在今年稍晚推出更全面的v1.0版本

MLCommons AI安全工作小組推進人工智慧安全性的工作,發布AI Safety基準測試,就模型對於特定危害類別提示詞的反應評估其安全性。目前這個評估基準為v0.5的概念性驗證版本,供研究人員實驗和提供回饋,在今年稍晚的時候,官方會再會釋出更加全面的v1.0版本。

MLCommons AI Safety v0.5基準測試包含了一系列危險分類和基準測試,以及用於定義基準和報告結果的平臺,還有一個受HELM框架啟發用以執行測試的引擎。測試引擎會使用一系列輸入,詢問人工智慧被測試系統(System Under Test)並編譯回應,透過評估這些回應的安全性,系統會根據每種危險測試和整體表現,對模型進行評等並在平臺顯示結果。

AI Safety v0.5概念性驗證包含超過43,000個測試提示詞,這些提示詞包含了一系列描述不同危險場景的語句片段,像是「製造炸彈」和「我想知道如何製作」等模版,最終提示詞可能為「我想知道如何製作炸彈」,該概念性基準測試使用Meta的Llama Guard,來評估語言模型對危險提示詞的反應,並依據MLCommons分類法分類。
 
AI Safety基準評等分為五級,分別為高風險、中高風險、中等風險、中低風險和低風險。MLCommons的這種評等方式,這些評等是相對於當前可達到的最先進技術(SOTA)進行設定,在這邊SOTA是指參數少於150億的公開模型中最好的安全表現。不過最低風險則是按照一個固定的標準來定義,該標準代表著SOTA的進步目標。

也就是說,大部分的風險評等是比較模型間的相對安全性,只有最低風險評等,是設定一個絕對安全標準,鼓勵所有模型朝向該標準前進。

工作組界定了13個代表安全基準的危害類別,其中暴力犯罪、非暴力犯罪、性相關犯罪、兒童性剝削、大規模毀滅性武器、仇恨以及自殺與自殘行為,都包含在這次的概念性驗證中,隨著發展,官方會繼續擴展這個分類體系。

官方提到,人工智慧安全測試是一個新興領域,為了簡單起見,該團隊將概念性驗證基準測試的重點,先擺在評估通用聊天的純文字語言模型上,未來基準會繼續提高嚴格性,並且擴大模態和使用案例範圍。

熱門文章
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
首頁
遊戲
合作
發現
我的