k8s-troubleshooting
AI 驱动的 Kubernetes 与 OpenShift 故障排除工具。通过仿照 Popeye 的模式进行主动式集群健康评估、调试 Pod 失败、分析日志并验证安全性。
简介
k8s-troubleshooting 技能为管理和诊断 Kubernetes 与 OpenShift 环境提供了智能的、基于代理的接口。它专为需要快速根本原因分析和主动式健康监控的 DevOps 工程师、SRE 和集群管理员所设计。通过整合 Popeye 工具的模式,该技能可以识别整个集群生命周期中的错误配置、资源效率低下和安全漏洞。
-
执行全面的集群健康评估,包括节点、Pod 和服务状态检查。
-
为常见故障模式(如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 PVC pending 状态)执行自动化诊断。
-
使用 stern 和 kubectl 等工具进行深度日志分析,支持多 Pod 流式传输和事件解释。
-
验证安全性与 RBAC 配置,包括检测特权容器和 root 用户进程。
-
通过识别容器规范中缺失的资源限制 (limits) 和请求 (requests) 来优化资源分配。
-
支持 OpenShift 特有的故障排除,涵盖 SCC、Route、Operator 和自定义 BuildConfig。
-
基于集群类型检测,提供标准 Kubernetes (kubectl) 与 OpenShift (oc) 操作之间的自动命令转换。
-
提供关于性能调优、可靠性改进和高可用性 (HA) 配置的自动建议。
-
使用说明:此技能使用 kubectl 作为主要接口。请确保您在本地安装了适当的 context、命名空间权限以及如 kubectl、oc、k9s 和 krew 等 CLI 工具。
-
输入:接受自然语言请求,例如“为什么这个 Pod 崩溃了?”、“检查集群安全性”或“找出 production 命名空间中的存储问题”。
-
输出:提供诊断报告、可执行的修复步骤,以及解决已识别问题的直接 CLI 命令建议。
-
限制:其可靠性取决于集群连接状态以及在相关命名空间上的读取/列出访问权限。
仓库统计
- Star 数
- 4
- Fork 数
- 1
- Open Issue 数
- 0
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月4日 01:18