工程开发
k8s-troubleshooter
系统化 Kubernetes 故障排查、Pod 诊断、集群健康监控与事故响应指南。
简介
此技能为 DevOps 工程师与 SRE 提供了一套完整的工具包,用于 Kubernetes 环境中的系统化故障排查。它通过自动收集诊断数据并针对生产环境问题提供可行的见解,简化了事故响应流程。无论您面临的是常见的调度错误、资源限制还是复杂的网络故障,该代理都将引导您完成诊断流程,以最大限度地缩短平均修复时间 (MTTR)。
-
自动化分流:执行即时集群健康检查,识别所有命名空间中非运行中的 Pod,并使用 kubectl 和基于 Python 的诊断脚本分析节点资源利用率。
-
Pod 深度调查:检索日志、事件和配置详情,以排查如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 Pending 状态等常见故障模式。
-
命名空间健康分析:执行自动化脚本以评估特定命名空间内的部署可用性、服务端点、PVC 存储状态和资源配额使用情况。
-
结构化事故响应:遵循针对 SEV-1 到 SEV-4 事故的既定手册,包括评估、调查、解决方案和事故后审查程序。
-
资源与网络调试:获取关于节点 DiskPressure、NotReady 状态、网络策略和持久卷连接问题的可见性。
-
当遇到与 Kubernetes 组件、Pod、服务或存储卷相关的错误时,请启用此技能。
-
输入需求:进行特定资源调查时,请提供命名空间与对象名称(Pod、服务、节点)。
-
预期输出:清晰的诊断结果、根本原因分析、建议的补救步骤与验证指令。
-
运营环境:专为生产级环境设计,重视安全性、变更文档化以及修复后的行为监控。
-
限制:需要 kubectl 访问权限、目标集群上足够的 RBAC 权限,并需安装 python3 以执行高级诊断脚本。
仓库统计
- Star 数
- 139
- Fork 数
- 26
- Open Issue 数
- 1
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 17:54