chaos-engineering-resilience
混乱工程框架,用于注入受控故障、验证系统韧性,并在分布式环境中自动化执行灾难恢复测试。
简介
chaos-engineering-resilience 技能提供了一个强大的框架,通过受控的代理驱动故障注入来测试分布式系统的容错能力与可靠性。此技能专为 SRE、DevOps 工程师与质量工程师设计,帮助团队超越被动监控,通过主动破坏系统以在故障影响生产环境前发现隐藏弱点。它遵循混乱实验的严格原则:定义稳定状态指标、制定故障假设、执行真实世界的故障注入,并验证系统恢复机制。通过整合此技能,代理程序可以协调专业团队(包含 qe-chaos-engineer、qe-performance-tester 与 qe-production-intelligence),以具备自动回滚与定义爆炸半径等安全优先协议来执行实验。
-
自动化故障注入,针对网络延迟、丢包、实例终止、磁盘故障、CPU 压力以及服务级别依赖项。
-
支持业界标准工具,包括 tc、toxiproxy、Chaos Monkey、Gremlin 与 LitmusChaos。
-
具备智能爆炸半径管理,支持从开发与预发布环境逐步过渡到生产环境子集(1%、10%、50%、100%)。
-
实时监测稳定状态指标(如错误率、p99 延迟与吞吐量),当指标超过阈值时触发自动回滚。
-
根据观察到的故障恢复模式与系统行为,自动生成事件响应执行手册 (runbooks)。
-
与分布式系统架构及云原生基础设施无缝整合,进行全面的韧性验证。
-
务必在非生产环境中开始实验以建立基准,再进一步推行至实际流量环境。
-
在进行任何注入之前,确保稳定状态指标(正常运行行为)已明确定义且可测量。
-
使用实验结构来记录每次测试运行的具体假设与预期结果。
-
密切监控爆炸半径,并利用自动回滚功能以防止未被规划的中断。
-
定期更新内存命名空间中的执行手册与基准指标,以提升代理程序随时间积累的上下文感知能力。
仓库统计
- Star 数
- 329
- Fork 数
- 65
- Open Issue 数
- 4
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 01:29