微軟開源可用來偵測生成式AI模型風險的紅隊工具PyRIT
· 2024-02-26

微軟釋出大型語言模型專用的紅隊演練工具PyRIT,可自動化模型風險辨識程序,偵測出惡意程式生成、越獄或是資料竊盜等模型濫用行為

GitHub

微軟上周四(2/22)透過GitHub開源了PyRIT(Python Risk Identification Toolkit for generative AI),以利安全專業人員及機器學習工程師可自動化用來辨識大型語言模型(LLM)風險的程序,包括辨識生成惡意程式、越獄或是資料竊盜等LLM的濫用行為。

微軟的AI紅隊(Microsoft AI Red Team)自2022年開始針對不同的生成式AI系統進行紅隊演練,以尋找各種風險,當時的PyRIT只是一組一次性的腳本程式,隨著該團隊每次添增各種功能,將它堆砌成一個可靠的工具。其實微軟在2021年便曾開源AI風險評估工具Counterfit,但Counterfit主要是針對傳統的機器學習系統,無法滿足其底層原則及威脅都有不同風貌的生成式AI,才促使微軟AI紅隊開發新工具。

PyRIT由5個元件所組成,包括用來測試的目標(Target),所使用的提示資料集(Dataset),基於自我評估或是既有分類器的評分引擎(Scoring Engine),單輪或多輪的攻擊策略(Attack Strategy),以及存放輸入及輸出等互動資料的記憶體。

PyRIT可先傳送惡意的提示到特定的生成式AI系統,收到回應後再將它傳至評分引擎,根據評分引擎傳回的結果再產生新的提示,再傳送至該生成式AI系統,不斷循環直至實現研究人員所設定的目標。根據微軟的測試,利用PyRIT針對Copilot進行紅隊演練時,可先選擇一個有害的類別,繼之生成數千個惡意提示,再以PyRIT的評分引擎來評估Copilot系統的輸出結果,其自動化能力讓原本需要幾周的測試在短短的幾小時內便完成。

不過,微軟強調,PyRIT並非用來取代人工的紅隊演練,而是相輔相成,它擴大了AI紅隊既有的專業知識,並替它們自動化繁瑣的任務。其程序是先由安全研究人員提供有害提示的資料集,接著便交由PyRIT將它們餵進大型語言模型端點,以生成更有害的提示,PyRIT揭露了可能存在的風險,再由研究人員深入探索,研究人員始終控制著紅隊操作的執行與策略。

微軟除了透過GitHub釋出PyRIT專案的工具包,以及提供各種示範之外,也預計於3月6日舉行一場PyRIT網路研討會,並歡迎有興趣的各路人馬報名。

熱門文章
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
首頁
遊戲
合作
發現
我的