k8s-troubleshooting
AI 驅動的 Kubernetes 與 OpenShift 故障排除工具。透過仿照 Popeye 的模式進行主動式叢集健康評估、除錯 Pod 失敗、分析日誌並驗證安全性。
簡介
k8s-troubleshooting 技能為管理和診斷 Kubernetes 與 OpenShift 環境提供了智慧型、基於代理的介面。它專為需要快速根本原因分析和主動式健康監控的 DevOps 工程師、SRE 和叢集管理員所設計。透過整合 Popeye 工具的模式,該技能可以識別整個叢集生命週期中的錯誤配置、資源效率低下和安全漏洞。
-
執行全面的叢集健康評估,包括節點、Pod 和服務狀態檢查。
-
為常見故障模式(如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 PVC pending 狀態)執行自動化診斷。
-
使用 stern 和 kubectl 等工具進行深度日誌分析,支援多 Pod 串流和事件解釋。
-
驗證安全性與 RBAC 配置,包括檢測特權容器和 root 使用者執行緒。
-
透過識別容器規格中缺失的資源限制 (limits) 和請求 (requests) 來優化資源分配。
-
支援 OpenShift 特有的故障排除,涵蓋 SCC、Route、Operator 和自定義 BuildConfig。
-
基於叢集類型檢測,提供標準 Kubernetes (kubectl) 與 OpenShift (oc) 操作之間的自動指令轉換。
-
提供關於效能調校、可靠性改進和高可用性 (HA) 配置的自動建議。
-
使用說明:此技能使用 kubectl 作為主要介面。請確保您在本地安裝了適當的 context、命名空間權限以及如 kubectl、oc、k9s 和 krew 等 CLI 工具。
-
輸入:接受自然語言請求,例如「為什麼這個 Pod 當機?」、「檢查叢集安全性」或「找出 production 命名空間中的儲存問題」。
-
輸出:提供診斷報告、可執行的修復步驟,以及解決已識別問題的直接 CLI 指令建議。
-
限制:其可靠性取決於叢集連線狀態以及在相關命名空間上的讀取/列出存取權限。
倉庫統計
- Star 數
- 4
- Fork 數
- 1
- Open Issue 數
- 0
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月4日 上午01:18