【臺灣資安大會直擊】三款繁中LLM用於資安可行嗎?奧義手把手實測分析
支付動態 · 2024-05-30

奧義智慧科技實測TAIDE、CyCraft和Taiwan LLM三款繁中LLM的資安問答能力,先是建置資安QA資料集、改良Flask評分框架,再來評估3種LLM優劣勢

奧義智慧科技資料科學家陳樞元表示,能做到不含簡體字、不含大陸用語且懂臺灣本土文化的LLM非常少,因此用於特定領域時,應先微調再使用。

不論是服務業、金融、醫療還是零售,大型語言模型(LLM)應用幾乎在各項領域遍地開花,資安也不例外。但,與大部分產業一樣,在資安領域使用LLM,也有不少先天條件要滿足,才能真正提高工作效率。

LLM用於資安領域的3大條件

奧義智慧科技資料科學家陳樞元在臺灣資安大會上就舉例,若將日常使用的ChatGPT用於資安領域,首先會有「隱私的隱憂。」尤其OpenAI在今年1月31日實施新隱私政策,表明會收集使用者內容等個人資訊,如提問中的地址,就有資訊洩漏的風險。

再來,「ChatGPT的安全機制設計,常拒絕回答資安問題!」陳樞元說明,比如提問「有什麼專門用於散布惡意軟體的服務出現嗎?」,ChatGPT會回答「我很抱歉,但我不能提供任何有關散布惡意軟體的信息...(略)」。這個限制,讓資安人員難以透過ChatGPT取得所需訊息。

既然如此,開發者用Llama這類開源LLM,自行打造為資安助理可行嗎?

「答案是不行。」因為,這類開源LLM的繁體中文訓練極少,比如BLOOM所用的中文訓練資料占比為16.2%,繁體中文資料只占0.05%,因此模型容易給出簡體中文回答或用語,不符合臺灣使用情境。這也意味著,開發者得先用繁體中文資料優化模型,讓模型學會繁中用語,才適合產業應用。

綜合起來,LLM要用於資安助理,得先兼顧隱私性、資安背景知識和臺灣本土文化這3大條件才行。

選定3種繁中LLM,建置QA集和評估指標

於是,陳樞元看上3個已用繁中資料優化、具備臺灣文化的LLM,並評估這些模型在資安領域的適用性。她強調,這個評估只限資安領域,規模就像是個小實驗,並非學術研究,且評估模型為去年12月底的最新70億參數(即7B)版本。

這3個本土化繁中LLM包括國科會TAIDE模型(b.11.0.0版)、奧義自建的CyCraftGPT模型(CyCraftGPT-V5版)以及臺大資工系陳緼儂師生團隊的Taiwan LLM(7B-v2.1版)。

其中,TAIDE由國科會領軍打造,以Llama 2模型為基礎,採用辭典、法規資料庫、學術會議論文摘要等政府公開繁中資料優化而成。CyCraftGPT則是奧義專為臺灣資安情境打造的模型,以Mistral-7B模型為基礎,以繁中資安資料訓練而成。至於Taiwan LLM也以Llama 2為基礎,使用社群媒體、時事新聞和法律文件等繁中資料優化而成。

而評估流程,則由陳樞元建立資安問答集,讓模型針對問答集的問題來回答,最後透過Flask框架來評分模型回答。值得注意的是,此處的Flask框架並非開發界常見的Python套件包,而是去年才推出的模型回答評分框架。

於是,為建立資安問答集,陳樞元先用GPT-4,將國外新聞網站The Register的資安類英文新聞翻譯成繁體中文,並人工檢查翻譯品質。無誤後,再輸入提示,讓GPT-4生成繁中資安QA資料集。在這個步驟中,陳樞元提示要求GPT-4扮演2個角色,首先是民眾角色,要根據資安新聞提出問題,再由另一個專家角色,來根據新聞和民眾提問回答問題。如此,就能產生一組問答,累積起來就組成一個問答集。當然,提示也要求GPT-4必須使用繁體中文回答,不得出現簡中內容。

最後,陳樞元用這個方法產生了50筆問答資料,也因為量不多,她可以人工檢驗每筆資料,比如是否皆為繁中。她點出,用GPT-4產生資料集有2個好處一是效率高,不需人工干預、只要有新聞資料就能生成資料集,再來,也正因為使用新聞驗證的資料,正確性也高。

除了資料集的準備,她也修改了評分專用的Flask框架,將原本只適用於英文內容評分的Flask,調整為可對繁體中文內容分析。

至於Flask如何運作,可把它想像為評審員,其心目中最理想的答案就是問答集中的答案,以此來對不同模型產出的回答評分。不只如此,Flask評分也要有評分指標與基準,陳樞元因此根據臺灣資安領域特性,調整既有指標,設定出事實性、隱私性、執行力、無害性、簡潔性和本土化等指標。

接著,Flask會根據這些指標,來對模型答案給出1至5分的評分和評語,來解釋評分的原因。

繁中LLM的資安應用實測

在實測階段,陳樞元用資料集的所有問題來評估這3款繁中LLM。她現場也以一組標準QA為例,來分享模型的回答表現。這個例子的標準問答是「組織如何保護K8s叢集,不被Siloscape這樣的惡意軟體攻破?」與「...(略)包括適當限制節點的權限、使用多因素驗證和最新的security patch,並定期進行安全檢查...(略)」。

首先,以CyCraftGPT來說,它的回答重點為使用安全工具,如CloudHealth Secure State提供的K8s清單和叢集建構圖標、使用eBPF技術從節點收集訊號等。它的評分為簡潔性3分、事實性4分、執行力3分、無害性和隱私性各5分。Flask說明評分,就事實性來說,回答中的工具和技術都是實際存在的,不過CyCraftGPT並未提到如何具體使用這些工具或技術的細節,因此少了1分。

以TAIDE而言,則給出冗長回答,且回答中包含許多難辨真假的英文簡寫,也會給出重複的答案,比如建議措施有「使用最新版本的K8s軟體和所有相關元件」、「確保所有元件(包括K8s、容器、作業系統等)處於最新狀態」等。Flask評分為簡潔性3分、事實性1分、執行力1分、無害性1分、隱私性5分,其中事實性的分數說明點出,TAIDE提到一些不存在的工具和概念,如RunCIF、Kubeboost等。

至於Taiwan LLM也給出長篇答案,回答中的7項建議作法,僅有2項正確。Flask評分為簡潔性2分、事實性1分、執行力1分、無害性和隱私性各5分,其事實性評分說明,模型給出的「Siloscape是一家開源安全公司」說法並不正確,應為惡意軟體,且回答中的一些措施現實中並不存在,如處理器密集部分(PCP)技術。

3大繁中LLM用於資安的優劣勢

經過各個QA測試,陳樞元總結這3大繁中LLM應用於資安的表現和優劣勢。就6大指標表現來說,TAIDE的事實性分數為3者中最高,其次是CyCraftGPT和Taiwan LLM。不過,隱私性和無害性分數排名則倒過來,Taiwan LLM最高,CyCraft GPT以些微差距居次。執行力部分則由TAIDE領先,簡潔性和本土性由CyCraft高分居冠。

她也以個別模型細說,首先,TAIDE語句順暢、內容詳細,並未使用簡體字,但回答冗長,通常有10條條列式答案,有時會全英文回答,並有大陸用語出現(21/50),如信息、黑客、接口等。因此她認為,TAIDE適用於提供條列式、資安方面的詳細解說。

至於CyCraftGPT,一樣語句順暢、沒有簡體字,少有大陸用語(3/50),內容簡短明確,但也因此缺少證據佐證。陳樞元點出,CyCraftGPT這些特性適合提供語句式、資安領域的大綱與簡介。

Taiwan LLM雖沒出現簡體字,但語句偶爾不通順、有較多大陸用語(39/50)、回答冗長,且回答時偶爾重複一樣的內容。陳樞元表示,該模型在資安領域的大陸用語很多,且容易答錯,因此應用於資安領域,需斟酌三思。

她總結,能做到不含簡體字、不含大陸用語且懂臺灣本土文化的LLM非常少,因此用於特定領域時,應先微調再使用。而此次測試的3個繁中LLM各有所長,若要應用,得要找出符合情境需求的模型,才能發揮效果。文⊙王若樸

Popular articles
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
British gambling levy rates confirmed for each vertical
Regulation
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
Indiana online casino bill stalls in House committee
Regulation
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
Home
Game
Cooperation
Find
My