k8s-troubleshooting

简介

k8s-troubleshooting 技能为管理和诊断 Kubernetes 与 OpenShift 环境提供了智能的、基于代理的接口。它专为需要快速根本原因分析和主动式健康监控的 DevOps 工程师、SRE 和集群管理员所设计。通过整合 Popeye 工具的模式，该技能可以识别整个集群生命周期中的错误配置、资源效率低下和安全漏洞。

执行全面的集群健康评估，包括节点、Pod 和服务状态检查。
为常见故障模式（如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 PVC pending 状态）执行自动化诊断。
使用 stern 和 kubectl 等工具进行深度日志分析，支持多 Pod 流式传输和事件解释。
验证安全性与 RBAC 配置，包括检测特权容器和 root 用户进程。
通过识别容器规范中缺失的资源限制 (limits) 和请求 (requests) 来优化资源分配。
支持 OpenShift 特有的故障排除，涵盖 SCC、Route、Operator 和自定义 BuildConfig。
基于集群类型检测，提供标准 Kubernetes (kubectl) 与 OpenShift (oc) 操作之间的自动命令转换。
提供关于性能调优、可靠性改进和高可用性 (HA) 配置的自动建议。
使用说明：此技能使用 kubectl 作为主要接口。请确保您在本地安装了适当的 context、命名空间权限以及如 kubectl、oc、k9s 和 krew 等 CLI 工具。
输入：接受自然语言请求，例如“为什么这个 Pod 崩溃了？”、“检查集群安全性”或“找出 production 命名空间中的存储问题”。
输出：提供诊断报告、可执行的修复步骤，以及解决已识别问题的直接 CLI 命令建议。
限制：其可靠性取决于集群连接状态以及在相关命名空间上的读取/列出访问权限。

创业课程

在线课程

实体课程

简介

仓库统计