工程開發
chaos-engineering-resilience avatar

chaos-engineering-resilience

混亂工程框架,用於注入受控故障、驗證系統韌性,並在分散式環境中自動化執行災難復原測試。

簡介

chaos-engineering-resilience 技能提供了一個強大的框架,透過受控的代理驅動故障注入來測試分散式系統的容錯能力與可靠性。此技能專為 SRE、DevOps 工程師與品質工程師設計,協助團隊超越被動監控,透過主動破壞系統以在故障影響生產環境前發現隱藏弱點。它遵循混亂實驗的嚴格原則:定義穩定狀態指標、制定故障假設、執行真實世界的故障注入,並驗證系統復原機制。透過整合此技能,代理程式可以協調專業團隊(包含 qe-chaos-engineer、qe-performance-tester 與 qe-production-intelligence),以具備自動復原與定義爆炸半徑等安全優先協定來執行實驗。

  • 自動化故障注入,針對網路延遲、封包遺失、實例終止、磁碟故障、CPU 壓力以及服務級別依賴項。

  • 支援業界標準工具,包括 tc、toxiproxy、Chaos Monkey、Gremlin 與 LitmusChaos。

  • 具備智慧爆炸半徑管理,支援從開發與預備環境逐步過渡到生產環境子集(1%、10%、50%、100%)。

  • 即時監測穩定狀態指標(如錯誤率、p99 延遲與吞吐量),當指標超過閾值時觸發自動復原。

  • 根據觀察到的故障復原模式與系統行為,自動產生事件回應執行手冊 (runbooks)。

  • 與分散式系統架構及雲原生基礎設施無縫整合,進行全面的韌性驗證。

  • 務必在非生產環境中開始實驗以建立基準,再進一步推行至實際流量環境。

  • 在進行任何注入之前,確保穩定狀態指標(正常運行行為)已明確定義且可測量。

  • 使用實驗結構來記錄每次測試運行的具體假設與預期結果。

  • 密切監控爆炸半徑,並利用自動復原功能以防止未經規劃的中斷。

  • 定期更新記憶體命名空間中的執行手冊與基準指標,以提升代理程式隨時間積累的上下文感知能力。

倉庫統計

Star 數
329
Fork 數
65
Open Issue 數
4
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午01:29
在 GitHub 查看