工程开发
chaos-engineering-resilience avatar

chaos-engineering-resilience

执行受控故障注入、韧性测试与系统恢复验证,以建立分布式系统容错能力的信心。

简介

chaos-engineering-resilience 技能赋能工程师,通过刻意注入受控故障,主动强化分布式系统。通过应用混沌工程原则,此技能有助于识别隐藏的架构弱点、验证灾难恢复手册 (Runbooks),并确认自动化监控与警报系统在压力下能正确运作。它专为平台工程师、网站可靠性工程师 (SRE) 及追求超越功能测试、迈向真实生产级韧性验证的质量保证团队所设计。

  • 自动化故障注入,涵盖网络状况 (延迟、丢包、分区)、基础设施 (实例终止、磁盘故障、CPU 压力) 及应用层级错误 (异常、依赖超时)。

  • 精密的稳态监控,使用自定义的错误率、吞吐量及 p99 延迟指标,以在实验期间侦测偏差。

  • 整合安全机制,当超过预设错误门槛时触发自动回滚,确保受控的爆炸半径。

  • 通过 qe-chaos-engineer 代理程序进行智能编排,管理从建立稳态基准到最终冲击分析的完整实验生命周期。

  • 根据实验结果自动生成运行手册 (Runbooks),记录系统恢复模式与事后文件。

  • 与性能测试及生产智能代理程序无缝整合,进行全方位的系统评估。

  • 用户在启动任何实验前应定义明确的稳态;本技能需要基准测量值以区分正常行为与实际故障影响。

  • 务必在非生产环境 (如开发或测试环境) 先行测试,再于生产环境执行实验;请利用从 1% 到 100% 的爆炸半径渐进扩展。

  • 预期输出包含实验定义文件 (JSON/TypeScript)、实时实验日志,以及包含识别系统弱点的验尸分析报告。

  • 在集中式代理程序协调框架内,支持常见的混沌工具,如 tc、toxiproxy、Chaos Monkey、Gremlin 及 LitmusChaos。

  • 严格遵守安全优先原则,针对所有生产环境的操作,要求必须设定如 error_rate > 5% 等强制回滚触发条件。

仓库统计

Star 数
329
Fork 数
65
Open Issue 数
4
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 07:59
在 GitHub 查看