k8s-troubleshooter

简介

此技能为 DevOps 工程师与 SRE 提供了一套完整的工具包，用于 Kubernetes 环境中的系统化故障排查。它通过自动收集诊断数据并针对生产环境问题提供可行的见解，简化了事故响应流程。无论您面临的是常见的调度错误、资源限制还是复杂的网络故障，该代理都将引导您完成诊断流程，以最大限度地缩短平均修复时间 (MTTR)。

自动化分流：执行即时集群健康检查，识别所有命名空间中非运行中的 Pod，并使用 kubectl 和基于 Python 的诊断脚本分析节点资源利用率。
Pod 深度调查：检索日志、事件和配置详情，以排查如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 Pending 状态等常见故障模式。
命名空间健康分析：执行自动化脚本以评估特定命名空间内的部署可用性、服务端点、PVC 存储状态和资源配额使用情况。
结构化事故响应：遵循针对 SEV-1 到 SEV-4 事故的既定手册，包括评估、调查、解决方案和事故后审查程序。
资源与网络调试：获取关于节点 DiskPressure、NotReady 状态、网络策略和持久卷连接问题的可见性。
当遇到与 Kubernetes 组件、Pod、服务或存储卷相关的错误时，请启用此技能。
输入需求：进行特定资源调查时，请提供命名空间与对象名称（Pod、服务、节点）。
预期输出：清晰的诊断结果、根本原因分析、建议的补救步骤与验证指令。
运营环境：专为生产级环境设计，重视安全性、变更文档化以及修复后的行为监控。
限制：需要 kubectl 访问权限、目标集群上足够的 RBAC 权限，并需安装 python3 以执行高级诊断脚本。

创业课程

在线课程

实体课程

简介

仓库统计