工程開發
chaos-engineering-resilience avatar

chaos-engineering-resilience

執行受控故障注入、韌性測試與系統恢復驗證,以建立分散式系統容錯能力的信心。

簡介

chaos-engineering-resilience 技能賦能工程師,透過刻意注入受控故障,主動強化分散式系統。透過應用混沌工程原則,此技能有助於識別隱藏的架構弱點、驗證災難復原手冊 (Runbooks),並確認自動化監控與警報系統在壓力下能正確運作。它專為平台工程師、網站可靠性工程師 (SRE) 及追求超越功能測試、邁向真實生產級韌性驗證的品質保證團隊所設計。

  • 自動化故障注入,涵蓋網路狀況 (延遲、封包遺失、分割)、基礎設施 (執行個體終止、磁碟故障、CPU 壓力) 及應用程式層級錯誤 (異常、依賴逾時)。

  • 精密的穩態監控,使用自訂的錯誤率、吞吐量及 p99 延遲指標,以在實驗期間偵測偏差。

  • 整合安全機制,當超過預設錯誤門檻時觸發自動回滾,確保受控的爆炸半徑。

  • 透過 qe-chaos-engineer 代理程式進行智慧編排,管理從建立穩態基準到最終衝擊分析的完整實驗生命週期。

  • 根據實驗結果自動生成運行手冊 (Runbooks),記錄系統恢復模式與事後文件。

  • 與效能測試及生產智慧代理程式無縫整合,進行全方位的系統評估。

  • 使用者在啟動任何實驗前應定義明確的穩態;本技能需要基準測量值以區分正常行為與實際故障影響。

  • 務必在非生產環境 (如開發或測試環境) 先行測試,再於生產環境執行實驗;請利用從 1% 到 100% 的爆炸半徑漸進擴展。

  • 預期輸出包含實驗定義檔 (JSON/TypeScript)、即時實驗日誌,以及包含識別系統弱點的驗屍分析報告。

  • 在集中式代理程式協調框架內,支援常見的混沌工具,如 tc、toxiproxy、Chaos Monkey、Gremlin 及 LitmusChaos。

  • 嚴格遵守安全優先原則,針對所有生產環境的操作,要求必須設定如 error_rate > 5% 等強制回滾觸發條件。

倉庫統計

Star 數
329
Fork 數
65
Open Issue 數
4
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午07:59
在 GitHub 查看