

SecDB平臺是高盛用了30年的證券交易風險評估系統,每天要執行1.6億個任務,為了更即時掌握SecDB的狀態,甚至資料庫內部運作狀態,2023前,高盛為這個系統打造一套可觀察性平臺架構
因為這套DecDB在全球各地都有節點,如紐約SecDB資料庫節點、倫敦節點、香港節點等,後來,高盛將這套監控架構發展成了全球多區域的架構,每個區域各有一套自己的Prometheus,遙測資料先集中到各地SecDB的Prometheus後,再把資料匯入到SRE團隊的Prometheus上來提供整合性儀表板。高盛SRE團隊也會提供了SecDB的SLO達成情況,方便資料庫團隊追蹤每一天的維運狀態。
因為SecDB是全球運作,而且是24小時都不能停,而且得支援全球不同時區的需求。每個區域會有6個待命工程師,每周輪流接手,來和全球的待命團隊(SRE)成員合作。為了各區域值班待命工程師的工作銜接,也讓他們有能力處理更多示警通報的管理,高盛還打造了一個SOS系統,紀錄每一起事件的處理情況,方便不同區域之間的工作交接。
高盛打造了一個SOS系統,來紀錄每一起事件的處理清況,方便全球不同時區團隊的工作交接。

2023年,高盛完成了SecDB平臺的可觀察性架構之後,開始將這個機制延伸到其他SecDB平臺的各種相關應用,預計在2024年涵蓋到所有相關應用,都要納入同一套可觀察性架構下。