微軟開源可用來偵測生成式AI模型風險的紅隊工具PyRIT
· 2024-02-26

微軟釋出大型語言模型專用的紅隊演練工具PyRIT,可自動化模型風險辨識程序,偵測出惡意程式生成、越獄或是資料竊盜等模型濫用行為

GitHub

微軟上周四(2/22)透過GitHub開源了PyRIT(Python Risk Identification Toolkit for generative AI),以利安全專業人員及機器學習工程師可自動化用來辨識大型語言模型(LLM)風險的程序,包括辨識生成惡意程式、越獄或是資料竊盜等LLM的濫用行為。

微軟的AI紅隊(Microsoft AI Red Team)自2022年開始針對不同的生成式AI系統進行紅隊演練,以尋找各種風險,當時的PyRIT只是一組一次性的腳本程式,隨著該團隊每次添增各種功能,將它堆砌成一個可靠的工具。其實微軟在2021年便曾開源AI風險評估工具Counterfit,但Counterfit主要是針對傳統的機器學習系統,無法滿足其底層原則及威脅都有不同風貌的生成式AI,才促使微軟AI紅隊開發新工具。

PyRIT由5個元件所組成,包括用來測試的目標(Target),所使用的提示資料集(Dataset),基於自我評估或是既有分類器的評分引擎(Scoring Engine),單輪或多輪的攻擊策略(Attack Strategy),以及存放輸入及輸出等互動資料的記憶體。

PyRIT可先傳送惡意的提示到特定的生成式AI系統,收到回應後再將它傳至評分引擎,根據評分引擎傳回的結果再產生新的提示,再傳送至該生成式AI系統,不斷循環直至實現研究人員所設定的目標。根據微軟的測試,利用PyRIT針對Copilot進行紅隊演練時,可先選擇一個有害的類別,繼之生成數千個惡意提示,再以PyRIT的評分引擎來評估Copilot系統的輸出結果,其自動化能力讓原本需要幾周的測試在短短的幾小時內便完成。

不過,微軟強調,PyRIT並非用來取代人工的紅隊演練,而是相輔相成,它擴大了AI紅隊既有的專業知識,並替它們自動化繁瑣的任務。其程序是先由安全研究人員提供有害提示的資料集,接著便交由PyRIT將它們餵進大型語言模型端點,以生成更有害的提示,PyRIT揭露了可能存在的風險,再由研究人員深入探索,研究人員始終控制著紅隊操作的執行與策略。

微軟除了透過GitHub釋出PyRIT專案的工具包,以及提供各種示範之外,也預計於3月6日舉行一場PyRIT網路研討會,並歡迎有興趣的各路人馬報名。

熱門文章
Kazakhstan plans to penalise online casino promotions
Regulation
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
British gambling levy rates confirmed for each vertical
Regulation
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Indiana online casino bill stalls in House committee
Regulation
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
首頁
遊戲
合作
發現
我的