工程开发
k8s-troubleshooter avatar

k8s-troubleshooter

系统化 Kubernetes 故障排查、Pod 诊断、集群健康监控与事故响应指南。

简介

此技能为 DevOps 工程师与 SRE 提供了一套完整的工具包,用于 Kubernetes 环境中的系统化故障排查。它通过自动收集诊断数据并针对生产环境问题提供可行的见解,简化了事故响应流程。无论您面临的是常见的调度错误、资源限制还是复杂的网络故障,该代理都将引导您完成诊断流程,以最大限度地缩短平均修复时间 (MTTR)。

  • 自动化分流:执行即时集群健康检查,识别所有命名空间中非运行中的 Pod,并使用 kubectl 和基于 Python 的诊断脚本分析节点资源利用率。

  • Pod 深度调查:检索日志、事件和配置详情,以排查如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 Pending 状态等常见故障模式。

  • 命名空间健康分析:执行自动化脚本以评估特定命名空间内的部署可用性、服务端点、PVC 存储状态和资源配额使用情况。

  • 结构化事故响应:遵循针对 SEV-1 到 SEV-4 事故的既定手册,包括评估、调查、解决方案和事故后审查程序。

  • 资源与网络调试:获取关于节点 DiskPressure、NotReady 状态、网络策略和持久卷连接问题的可见性。

  • 当遇到与 Kubernetes 组件、Pod、服务或存储卷相关的错误时,请启用此技能。

  • 输入需求:进行特定资源调查时,请提供命名空间与对象名称(Pod、服务、节点)。

  • 预期输出:清晰的诊断结果、根本原因分析、建议的补救步骤与验证指令。

  • 运营环境:专为生产级环境设计,重视安全性、变更文档化以及修复后的行为监控。

  • 限制:需要 kubectl 访问权限、目标集群上足够的 RBAC 权限,并需安装 python3 以执行高级诊断脚本。

仓库统计

Star 数
139
Fork 数
26
Open Issue 数
1
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 17:54
在 GitHub 查看