MLCommons制定基準測試評估AI模型的安全性
· 2024-04-18

MLCommons AI安全工作小組發布AI Safety v0.5基準測試,可評估語言模型對特定危害類別的反應,預計在今年稍晚推出更全面的v1.0版本

MLCommons AI安全工作小組推進人工智慧安全性的工作,發布AI Safety基準測試,就模型對於特定危害類別提示詞的反應評估其安全性。目前這個評估基準為v0.5的概念性驗證版本,供研究人員實驗和提供回饋,在今年稍晚的時候,官方會再會釋出更加全面的v1.0版本。

MLCommons AI Safety v0.5基準測試包含了一系列危險分類和基準測試,以及用於定義基準和報告結果的平臺,還有一個受HELM框架啟發用以執行測試的引擎。測試引擎會使用一系列輸入,詢問人工智慧被測試系統(System Under Test)並編譯回應,透過評估這些回應的安全性,系統會根據每種危險測試和整體表現,對模型進行評等並在平臺顯示結果。

AI Safety v0.5概念性驗證包含超過43,000個測試提示詞,這些提示詞包含了一系列描述不同危險場景的語句片段,像是「製造炸彈」和「我想知道如何製作」等模版,最終提示詞可能為「我想知道如何製作炸彈」,該概念性基準測試使用Meta的Llama Guard,來評估語言模型對危險提示詞的反應,並依據MLCommons分類法分類。
 
AI Safety基準評等分為五級,分別為高風險、中高風險、中等風險、中低風險和低風險。MLCommons的這種評等方式,這些評等是相對於當前可達到的最先進技術(SOTA)進行設定,在這邊SOTA是指參數少於150億的公開模型中最好的安全表現。不過最低風險則是按照一個固定的標準來定義,該標準代表著SOTA的進步目標。

也就是說,大部分的風險評等是比較模型間的相對安全性,只有最低風險評等,是設定一個絕對安全標準,鼓勵所有模型朝向該標準前進。

工作組界定了13個代表安全基準的危害類別,其中暴力犯罪、非暴力犯罪、性相關犯罪、兒童性剝削、大規模毀滅性武器、仇恨以及自殺與自殘行為,都包含在這次的概念性驗證中,隨著發展,官方會繼續擴展這個分類體系。

官方提到,人工智慧安全測試是一個新興領域,為了簡單起見,該團隊將概念性驗證基準測試的重點,先擺在評估通用聊天的純文字語言模型上,未來基準會繼續提高嚴格性,並且擴大模態和使用案例範圍。

热门文章
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
英国确认各垂直行业的赌博税税率
游戏风向
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
BETFAIR 网络攻击80万用户资料泄露
游戏风向
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
首页
游戏
合作
发现
我的