工程开发
k8s-troubleshooting avatar

k8s-troubleshooting

AI 驱动的 Kubernetes 与 OpenShift 故障排除工具。通过仿照 Popeye 的模式进行主动式集群健康评估、调试 Pod 失败、分析日志并验证安全性。

简介

k8s-troubleshooting 技能为管理和诊断 Kubernetes 与 OpenShift 环境提供了智能的、基于代理的接口。它专为需要快速根本原因分析和主动式健康监控的 DevOps 工程师、SRE 和集群管理员所设计。通过整合 Popeye 工具的模式,该技能可以识别整个集群生命周期中的错误配置、资源效率低下和安全漏洞。

  • 执行全面的集群健康评估,包括节点、Pod 和服务状态检查。

  • 为常见故障模式(如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 PVC pending 状态)执行自动化诊断。

  • 使用 stern 和 kubectl 等工具进行深度日志分析,支持多 Pod 流式传输和事件解释。

  • 验证安全性与 RBAC 配置,包括检测特权容器和 root 用户进程。

  • 通过识别容器规范中缺失的资源限制 (limits) 和请求 (requests) 来优化资源分配。

  • 支持 OpenShift 特有的故障排除,涵盖 SCC、Route、Operator 和自定义 BuildConfig。

  • 基于集群类型检测,提供标准 Kubernetes (kubectl) 与 OpenShift (oc) 操作之间的自动命令转换。

  • 提供关于性能调优、可靠性改进和高可用性 (HA) 配置的自动建议。

  • 使用说明:此技能使用 kubectl 作为主要接口。请确保您在本地安装了适当的 context、命名空间权限以及如 kubectl、oc、k9s 和 krew 等 CLI 工具。

  • 输入:接受自然语言请求,例如“为什么这个 Pod 崩溃了?”、“检查集群安全性”或“找出 production 命名空间中的存储问题”。

  • 输出:提供诊断报告、可执行的修复步骤,以及解决已识别问题的直接 CLI 命令建议。

  • 限制:其可靠性取决于集群连接状态以及在相关命名空间上的读取/列出访问权限。

仓库统计

Star 数
4
Fork 数
1
Open Issue 数
0
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月4日 01:18
在 GitHub 查看