微軟開源可用來偵測生成式AI模型風險的紅隊工具PyRIT-灰度官网

微軟開源可用來偵測生成式AI模型風險的紅隊工具PyRIT

· 2024-02-26

微軟釋出大型語言模型專用的紅隊演練工具PyRIT，可自動化模型風險辨識程序，偵測出惡意程式生成、越獄或是資料竊盜等模型濫用行為

GitHub

微軟上周四（2/22）透過GitHub開源了PyRIT（Python Risk Identification Toolkit for generative AI），以利安全專業人員及機器學習工程師可自動化用來辨識大型語言模型（LLM）風險的程序，包括辨識生成惡意程式、越獄或是資料竊盜等LLM的濫用行為。

微軟的AI紅隊（Microsoft AI Red Team）自2022年開始針對不同的生成式AI系統進行紅隊演練，以尋找各種風險，當時的PyRIT只是一組一次性的腳本程式，隨著該團隊每次添增各種功能，將它堆砌成一個可靠的工具。其實微軟在2021年便曾開源AI風險評估工具Counterfit，但Counterfit主要是針對傳統的機器學習系統，無法滿足其底層原則及威脅都有不同風貌的生成式AI，才促使微軟AI紅隊開發新工具。

PyRIT由5個元件所組成，包括用來測試的目標（Target），所使用的提示資料集（Dataset），基於自我評估或是既有分類器的評分引擎（Scoring Engine），單輪或多輪的攻擊策略（Attack Strategy），以及存放輸入及輸出等互動資料的記憶體。

PyRIT可先傳送惡意的提示到特定的生成式AI系統，收到回應後再將它傳至評分引擎，根據評分引擎傳回的結果再產生新的提示，再傳送至該生成式AI系統，不斷循環直至實現研究人員所設定的目標。根據微軟的測試，利用PyRIT針對Copilot進行紅隊演練時，可先選擇一個有害的類別，繼之生成數千個惡意提示，再以PyRIT的評分引擎來評估Copilot系統的輸出結果，其自動化能力讓原本需要幾周的測試在短短的幾小時內便完成。

不過，微軟強調，PyRIT並非用來取代人工的紅隊演練，而是相輔相成，它擴大了AI紅隊既有的專業知識，並替它們自動化繁瑣的任務。其程序是先由安全研究人員提供有害提示的資料集，接著便交由PyRIT將它們餵進大型語言模型端點，以生成更有害的提示，PyRIT揭露了可能存在的風險，再由研究人員深入探索，研究人員始終控制著紅隊操作的執行與策略。

微軟除了透過GitHub釋出PyRIT專案的工具包，以及提供各種示範之外，也預計於3月6日舉行一場PyRIT網路研討會，並歡迎有興趣的各路人馬報名。

熱門文章

英國確認各垂直行業的賭博稅稅率

合規與政策