chaos-engineering-resilience
執行受控故障注入、韌性測試與系統恢復驗證,以建立分散式系統容錯能力的信心。
簡介
chaos-engineering-resilience 技能賦能工程師,透過刻意注入受控故障,主動強化分散式系統。透過應用混沌工程原則,此技能有助於識別隱藏的架構弱點、驗證災難復原手冊 (Runbooks),並確認自動化監控與警報系統在壓力下能正確運作。它專為平台工程師、網站可靠性工程師 (SRE) 及追求超越功能測試、邁向真實生產級韌性驗證的品質保證團隊所設計。
-
自動化故障注入,涵蓋網路狀況 (延遲、封包遺失、分割)、基礎設施 (執行個體終止、磁碟故障、CPU 壓力) 及應用程式層級錯誤 (異常、依賴逾時)。
-
精密的穩態監控,使用自訂的錯誤率、吞吐量及 p99 延遲指標,以在實驗期間偵測偏差。
-
整合安全機制,當超過預設錯誤門檻時觸發自動回滾,確保受控的爆炸半徑。
-
透過 qe-chaos-engineer 代理程式進行智慧編排,管理從建立穩態基準到最終衝擊分析的完整實驗生命週期。
-
根據實驗結果自動生成運行手冊 (Runbooks),記錄系統恢復模式與事後文件。
-
與效能測試及生產智慧代理程式無縫整合,進行全方位的系統評估。
-
使用者在啟動任何實驗前應定義明確的穩態;本技能需要基準測量值以區分正常行為與實際故障影響。
-
務必在非生產環境 (如開發或測試環境) 先行測試,再於生產環境執行實驗;請利用從 1% 到 100% 的爆炸半徑漸進擴展。
-
預期輸出包含實驗定義檔 (JSON/TypeScript)、即時實驗日誌,以及包含識別系統弱點的驗屍分析報告。
-
在集中式代理程式協調框架內,支援常見的混沌工具,如 tc、toxiproxy、Chaos Monkey、Gremlin 及 LitmusChaos。
-
嚴格遵守安全優先原則,針對所有生產環境的操作,要求必須設定如 error_rate > 5% 等強制回滾觸發條件。
倉庫統計
- Star 數
- 329
- Fork 數
- 65
- Open Issue 數
- 4
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午07:59