CrowdStrike事故引發5大議題的討論
支付動態 · 2024-09-06

在0719大當機事件後,我們整理出在部署驗證、系統安全與穩定、分散風險、數位韌性、安全開發等5大議題,並從業者與企業等不同角度進行探討

iThome製表

今年7月,一場大規模的IT故障事故影響全球,起因竟是資安業者CrowdStrike的EDR產品更新,導致全球850萬臺Windows電腦死當。

這起事件發生在臺灣時間在7月19日(周五)的中午過後,雖然CrowdStrike事後號稱他們在1小時後就修復問題,並在兩個多小時後發布緩解方法,但這場電腦與伺服器大當機的風暴,在短短幾個鐘頭之內,就已經蔓延全球。

究竟這次大當機事故是如何造成?有哪些重要議題需要探討?例如,資安業者部署驗證測試發生的問題,管理方便可能導致的風險集中,以及過度依賴單一平臺與供應商的可能風險,還有數位韌性落差等,都成為大家關注的焦點。

由於整起事件在這段期間發生的狀況太多,使得相關檢討的資訊與重要議題容易被忽略,不少新聞報導僅將焦點放在局部事件,為此我們歸納出5大議題,幫助大家快速檢視需檢討的重要面向。

問題1:業者更新前為何未做好部署驗證測試?

所有人質疑的第一個問題在於,資安業者為何在更新前沒有做好部署驗證測試?釀成這次大規模事故。

事隔6天之後(7月24日),對於更新出包致Windows電腦死當,CrowdStrike公布初步事後檢討(PIR)報告。

他們表示,這次事件的發生時間,是在世界協調時間(UTC)7月19日上午4點09分,也就是臺灣時間同一天中午12點09分。

關於問題的發生原因,簡單來說,主要出在派送「Rapid Response Content」的環節,加上這個缺陷在驗證檢查期間未被檢測到,使得Falcon感應器在載入這些內容後,導致越界記憶體讀取,進而引發Windows電腦當機。

相隔1小時18分後,雖然CrowdStrike撤回有問題的更新,促使後續才連線的系統可以不受影響。但是,先前更新的系統已經受到影響,災情已經擴散。

具體而言,為了收集新型威脅技術的telemetry資料,CrowdStrike經常針對Windows感測器發布內容配置的更新。主要更新方式有兩種,一種是隨感測器同時發布,一種是名為「快速回應內容」(Rapid Response Content)發布,而這次問題是發生在後者。

CrowdStrike解釋,一般而言,感測器更新都會先進行內部測試,再釋放給早期使用者,最後才廣泛提供給客戶。

而快速回應內容的更新,是為了快速應對威脅而設計,其更新內容為IPC範本實例,用來告訴感測器要偵測哪些行為或攻擊。它的更新內容派送流程,將會驗證、確認更新內容無誤,再透過Channel Files部署到端點,也就是會透過內容驗證器檢查IPC以確保其正確性。

CrowdStrike接著說明詳細狀況:他們今年2月引入新感測器功能,以監控可能濫用Windows機制的攻擊技術。而這些IPC範本實例,後續已在測試環境中通過壓力測試,並在測試的Production環境中表現正常,經歷3次額外的Rapid Response Content更新部署。

只是,7月19日當天部署兩個IPC範本實例後,有個IPC範本實例存在未被偵測到的錯誤,加上內容驗證器有Bug,使得有問題的更新內容卻通過驗證。

綜觀上述事發說明,我們最好奇之處在於,為何Rapid Response Content的更新,只有進行壓力測試?卻不像Falcon感測器的更新,都會經過較嚴謹的部署更新測試?可惜,我們在CrowdStrike這份報告中,並未看到對應的解釋,無法得知這麼做的原因與考量。

是否因為公司要在產品安全功能上求快,導致沒有在安全與快速之間拿捏好平衡,也成為大家質疑之處。或許,在駭客零時差漏洞利用入侵越來越氾濫的今日,迫使資安業者更想要早一步偵測入侵跡象,但這次事件顯示輕忽最根本的安全考量,成為警惕

因此,CrowdStrike於7月24日PIR報告中,提出4大改進面向,以防範事件再次發生。這應該就是他們對於這次事件所得到的教訓。具體而言,包括:

(一)加強軟體測試程序:當中提及將為內容驗證器增加額外的驗證檢查,以及將改善快速回應內容的測試流程。

(二)提升系統韌性與恢復能力:將強化Falcon感測器中的錯誤處理機制。

(三)優化部署策略:將採分批部署策略,先進行小範圍系統進行測試部署,再逐步擴大範圍;並針對分批部署期間,強化感測器和系統性能的監控,也將提供更新通知,以及更大控制權,包含允許選擇更新的部署時間與位置。

(四)實施第三方驗證:將採取多次獨立的第三方安全程式碼審查;對於從開發到部署流程進行獨立審查。

另一方面,在0719事故後,我們還注意到,有其他資安業者公布自家軟體與內容更新的發布流程,以及整體發布策略。例如,7月23日有Fortinet,7月19日有Bitdefender。顯然這次事件的發生,不僅是CrowdStrike被迫詳細解釋其更新流程、事前測試,協助企業用戶可以了解狀況,也促使資安業界可藉此機會重新評估與改進,並促使一些業者對其用戶公開自家作法,希望獲取用戶信任。

不過,若是換個角度思考,這些資安業者目前提出的作法夠周延了嗎?只有自家的監督與稽核,卻沒有外部驗證,是否足以避免問題再次發生?以及企業分散風險的必要性,仍值得繼續深思,這也將是我們接下來繼續探討的議題。

問題2:微軟為何要開放作業系統核心模式驅動程式使用

這次Windows大當機是因為資安業者而起,加上有國外媒體報導微軟提到2009年的歐盟協議,指出微軟有義務將自家資安產品使用的API,開放給外部軟體開發商。

這也讓有些人將此事件的焦點,放在微軟的開放生態體系,因為他們為何允許資安業者使用核心模式驅動程式(Kernel-Mode Driver)?以及微軟對第三方解決方案是否有相應的安全措施?

對於這方面的問題,在7月27日,微軟企業與作業系統安全副總David Weston在官方網站發表文章,針對這方面與Windows安全最佳實踐提出說明。

David Weston談到資安解決方案使用Windows核心模式驅動程式的好處,包括:可以獲得系統層級的監控能力,偵測Bootkits與Rootkits,也可加快資料收集與分析,並提供防篡改能力。

以防篡改而言,資安產品的驅動程式為了能夠盡早載入,以便在最早的時間點可以觀察到系統事件,為此,Windows也提供ELAM驅動程式,這是個早期啟動防惡意程式的機制,而CrowdStrike也有簽署CSboot驅動程式來作為ELAM,能在系統啟動過程載入。

接下來,David Weston也解釋了核心模式驅動程式架構(KMDF),並指出所有在核心層級執行的程式碼,都需要廣泛的驗證,因為不像一般用戶端應用程式,故障後重新啟動就能恢復。

至於要如何避免這樣的問題?David Weston提到,資安產品可以在核心使用最小化情形下,減少可用性問題的風險,並維持充分的安全性與偵測能力,例如,盡量減少對於核心模式的依賴,像是微軟已經致力於將複雜的Windows核心服務,從核心模式移到使用者模式,好處是,如果有問題發生,系統也容易恢復。

另外,他也指出多種Windows在使用者模式下,可防止竄改的方法。例如,微軟近期發表名為Virtualization-based security(VBS)的記憶體保護區,就可以不用透過核心模式驅動程式來防篡改;還有去年底微軟推出的Event Tracing for Windows(ETW)新功能,都是可以平衡系統的安全性與穩定性的方法。

另外,David Weston還解釋微軟如何測試、簽署驅動程式,以及第三方廠商如何透過Windows Update等方式,將驅動程式發布給用戶。

整體來看,微軟傳達的重點在於,他們已發展一些作法,可限縮這次更新出包的問題面,並持續發展中,也將與第三方廠商加強相關合作。不過,該公司沒有很確切說明哪些策略會強制執行。

至於有人論及封閉生態系統、開放生態系統、開源生態系統,在當前環境的發展態勢,這是多年來都在持續討論的大議題。事實上,每一個生態都有對應之道,並且持續隨著整體環境而演變。

儘管外界有一些人士認為,微軟可能轉向蘋果的封閉生態路線,但Windows多年來都是朝向開放的路線,因此這只能等待時間去印證這個預測。

問題3:IT系統風險過於集中?

這次事件之所以帶來大規模影響,與CrowdStrike、Windows用戶數量有關。

基本上,微軟Windows作業系統在全球個人電腦與伺服器的用戶數,是數以億計,而這次事故中的關鍵業者CrowdStrike,雖然僅有企業用戶安裝其EDR產品,但根據該公司最新財報顯示,全球有多達24,000家企業是他們的客戶,並且約有6成都是《財富》全球500強的企業。

這也不難看出,由於許多大型企業都採用CrowdStrike,使得這次事件影響規模如此顯著。

對於企業組織而言,採用單一廠商的解決方案帶來集中管理的好處,雖然不像採用多個廠商的解決方案,可能使攻擊表面增加,但仰賴單一廠商,往往也導致風險集中,是否要將雞蛋放在同個籃子的老問題,是此事件後的反思焦點;對於整體國家而言,也有人憂心一家業者市占太大而有風險集中問題,不過,有這方面考量的探討似乎並不多,或是相關議題需要更廣泛看待,也許之後還會有進一步討論,尤其是監管單位是否會介入,他們的態度動見觀瞻。

以企業組織而言,在我們後續追蹤採訪中,就有一家醫療單位的主管就指出,這次事件只影響到院內部分主機,因為這些主機是使用CrowdStrike的EDR產品,其餘主機使用另一家廠商產品。但他們仍然學到一些經驗,就是在雙主機備援機制方面,也打算要採用不同廠商的防護服務。

問題4:企業應變能力低於預期,對於責任歸屬出現互踢皮球的狀況

在0719事故發生後的復原上,有些企業很快完成,但有些企業受影響裝置數量龐大,因此需要一定的時間。但更受全球關切的是,有些企業復原天數超乎預期,達美航空就是一例,這也成為企業引以為鑑的狀況。

基本上,這次許多受影響的企業組織,大多數都在周五至周日恢復。以臺灣為例,有醫院受到的影響只有半小時至1小時,桃園機場在當日下午5點多宣布受影響的7家航空公司,之後陸續恢復報到畫位服務;也有一些影響狀況較嚴重,像是有資服業者花上3天時間復原。

國際間的狀況也多是如此,例如,紐西蘭KiwiBank在當地周五早上11點多,宣布服務受影響,週六早上8點已讓網路銀行、App與ATM的恢復正常運作;另一家ASB銀行週六上午表示復原部分,週日上午全數服務恢復。

不過,這些狀況的發生,也讓災難復原、營運持續計畫(BCP),以及數位韌性等議題,受到更多企業組織的關注。畢竟,不論軟硬體或服務,都存在系統故障停擺的可能性,平時是否有這方面的計畫,甚至是營運持續的演練,都是企業縮短事故影響的重要環節。

而在眾多受到CrowdStrike影響IT運作的企業中,達美航空面臨的狀況最受外界關注,他們的處理過程遇到許多挑戰,也形同幫大家上了一課。因為該公司比其他公司更晚了幾天回復上線,導致其航班取消數量、影響客戶程度,也是最大。雖然達美航空執行長Ed Bastian在7月31日接受CNBC採訪時指出,該公司有4萬臺Windows伺服器需要手動重啟,數量相當龐大,但復原速度相對較慢也是不爭的事實。

在災情與復原狀況之外,這場事故也帶來一些爭議,像是後續衍生不少提告與求償的消息。例如,災情發生隔幾天,就有馬來西亞數位部長向微軟、CrowdStrike索賠的消息傳出。

達美航空更是以航班取消及公司形象受創為由,表示將提告並向CrowdStrike求償5億美元,之後CrowdStrike反指達美試圖推卸全部罪過,微軟也指出達美航空拒絕協助及基礎架構太過老舊,這些提告與求償的爭議,到現在(9月初)還沒有初步認定的共識,是要確認誰該為這起事件帶來的損失負責?還是就像天災發生那樣自行吸收損失?

不過,美國運輸部也介入此事,調查達美航空處置是否得當。換言之,企業的應變與復原能力仍是此事件的關鍵。

當然,CrowdStrike自身的應變能力也是焦點,像是CrowdStrike對外坦承事故的時間點太晚,在當時飽受各界批評。

例如,CrowdStrike在19日下午1點43分對其用戶發出資安公告,但該公告須以用戶身分登入才能瀏覽,外界只能經由用戶轉貼,才能得知廠商坦承此事;還有我們在當日下午近3點詢問該公司臺灣總經理陳琤琤,她表示未被授權發言而無法說明。

這些狀況,也使得一開始只有IT、資安圈相對了解狀況,他們比較清楚是CrowdStrike引發事故,但許多大眾媒體報導全球當機事件,都將矛頭指向微軟。

不過,對於這起事件帶來的全球衝擊,後續CrowdStrike也持續試圖彌補,包括數小時後該公司執行長George Kurtz上電視道歉,持續發布事件最新因應、狀態與調查報告。

這段期間CrowdStrike提供補償方案的10美元禮物卡,也被外界放大檢視;今年8月11日DEF CON的Pwnie Awards頒獎,也將今年將「史詩級失敗」獎項頒給了CrowdStrike事件。

不過,CrowdStrike總裁Michael Sentonas親自出席領取的勇氣,獲得現場相當多研究人員的迴響。Michael Sentonas除了再次公開道歉,也表示接受此獎不值得驕傲,但他希望將這個獎項放在公司顯眼處來提醒員工們。「知恥近乎勇」這樣的態度值得肯定。

到了8月28日,CrowdStrike召開季度會議,說明這幾週正贏得許多客戶的持續信任,且第二季表現仍超出分析師的預期。但是,這一季的成績不足以說明這次事件對該公司業績的影響,接下來兩季,才是考驗客戶是否依舊信任他們,有待後續經營表現才能有所證明。

問題5:開發者寫出越界記憶體讀取的Bug再起爭議

在先前談及部署驗證測試問題之外,為何開發者寫出會造成越界(out-of-bounds)記憶體讀取的問題,也成為本次事件衍生議題。

事實上,0719事故發生的隔日(週六),我們就看到有國外研究人員在社群平臺X聲稱,在他剖析CrowdStrike EDR系統的當機資料後,發現有段C++程式錯誤存取了「空指標」(Null Pointer),進而引發系統崩潰。

而在前述CrowdStrike於7月24日的PIR報告,也提到發生越界記憶體讀取的問題,7月25日官方部落格的技術文章中,同樣指出其頻道檔案可能包含NULL bytes。因此,證實了這項傳言。

對此,微軟在7月27日說明Windows安全最佳實踐的文章中,也提到其分析結果。微軟使用WinDBG偵錯工具與一些擴充程式來分析,他們從Windows崩潰報告發現,在讀取R8暫存器(Register)特定位址之前有一個檢查為NULL的情形,也就是調用一個位址時,但該位址為Null而造成了錯誤。這也印證CrowdStrike的分析結果。

到了8月6日,事發大約半個月後,CrowdStrike發布了根因分析(RCA)報告,又再有了更具體的說明。

CrowdStrike指出,在7月19日的更新,是基於今年2月首次引入的新感測器功能,這項功能預定義了一組欄位,用於快速回應內容功能的資料蒐集。

然而,原本感測器預期是收到20個輸入欄位,但當天的更新實際提供了21個欄位,這個欄位不符的情形,導致了越界記憶體讀取,進而引發系統崩潰。

由於越界記憶體讀取的Bug與漏洞問題,已經探討多年,因此在這次事件下,也衍生出這方面的討論。

例如,前幾年微軟與Google就指出,有70%重大漏洞的根因都出自記憶體問題,到了2022年,包含開源社群、科技大廠與美政府商討提升開源軟體安全對策中,就有一項是針對記憶體安全方面,透過替換「不具記憶體安全(non-memory-safe)」的程式語言,來消除許多漏洞問題的根源。

因此,雖然這次Falcon感測器錯誤的本質,的確涉及記憶體安全的Bug,值得探討。不過,可能造成同樣故障情形的錯誤還有很多種。

未來可留意事故責任與監管機關態度的討論

整體而言,這次事件促使著多個重要議題受到討論,不僅是資安業者的檢討,企業對於事件的多種反思,都成為大家在看待這次事故時的主要焦點。

例如,CrowdStrike更新前未做好部署驗證測試的問題,以及快速因應資安威脅與系統安全的平衡。在我們後續調查國內災情時,也有醫院單位表示將以此事件作為警惕,提醒自己日後在上架IT系統或更新版本時,更需按照標準程序進行,避免為自己帶來大麻煩。

另一方面,企業面臨這次災情,對於分散風險這件事也更有感受,甚至考量到雙主機備援機制下,也要採不同廠商的防護服務。

至於未來,其實還有一些動向可以留意,例如,這次錯誤問題是否會被攻擊者利用?CrowdStrike表示不會被攻擊者利用,而他們也與第三方審查確認。其他像是關於提告的後續消息,監管機關的要求等,可能也是這次事件下的討論焦點,都值得繼續追蹤。

 

 CrowdStrike當機事後的5個關鍵公告 
 7月20日 
官方部落格文章:CrowdStrike發表關於Falcon感測器內容更新的技術細節文章
內容:說明這次更新事故發生在19日的4時09分(世界協調時間),並指出受影響的頻道檔案為291。
 7月20日 
官方部落格文章:微軟揭露影響電腦數量,並說明將幫助客戶度過這次事故
內容:微軟指出預估有850萬臺Windows裝置受影響,並表示這雖然不是微軟的事件,但考慮到影響整個生態系統,將與相關公司共同協助修補。
 7月24日 
PDF報告:CrowdStrike公布事件後初步檢討報告
內容:說明發生越界記憶體讀取引發作業系統崩潰,有問題的更新涉及「Rapid Response Content」環節,同時負責驗證的內容驗證器有Bug導致未檢測出錯誤。
 7月27日 
官方部落格文章:微軟發布闡述Windows安全最佳實踐的相關文章
內容:解釋當今資安產品使用核心模式驅動程式的原因,並傳達出Windows已發展一些作法,可幫助限縮這些問題面,並在持續發展中,也將與第三方廠商加強相關合作。
 8月6日 
PDF報告:CrowdStrike公布根因分析報告
內容:針對越界記憶體讀取問題說明,指出原本感測器預期是收到20個輸入欄位,但當天的更新實際提供了21個欄位。同時指出事故10日後的7月29日,約有99%的Windows感測器已恢復上線。

 0719大當機事故衍生3種亂象 
關於CrowdStrike更新引發Windows死當事件,在我們統整出5大焦點議題之外,還有一些圍繞在事件周邊的消息,也成為整起事故下引發的插曲。
● 出現訊息混淆的狀況。在CrowdStrike引發當機事故前幾個小時,由於微軟發生美國中部Azure資料中心中斷事件,加上CrowdStrike在事故發生1個半小時說明引發當機的公告,只有其用戶身分登入才能瀏覽,沒有對外公布,導致只有IT、資安圈知道情形,但大眾媒體一開始報導全球當機災情,均將矛頭指向微軟。
● 錯假訊息的分享。例如在事件發生當下轉貼拉斯維加斯Sphere球體螢幕出現藍色當機畫面。
● 駭客利用事件名義來發動攻擊。CrowdStrike與多家資安業者持續警告,監控到有駭客假借這次IT大當機事故進行惡意活動。

Popular articles
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Kazakhstan plans to penalise online casino promotions
Regulation
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
British gambling levy rates confirmed for each vertical
Regulation
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
Indiana online casino bill stalls in House committee
Regulation
Home
Game
Cooperation
Find
My