工程開發
k8s-troubleshooting avatar

k8s-troubleshooting

AI 驅動的 Kubernetes 與 OpenShift 故障排除工具。透過仿照 Popeye 的模式進行主動式叢集健康評估、除錯 Pod 失敗、分析日誌並驗證安全性。

簡介

k8s-troubleshooting 技能為管理和診斷 Kubernetes 與 OpenShift 環境提供了智慧型、基於代理的介面。它專為需要快速根本原因分析和主動式健康監控的 DevOps 工程師、SRE 和叢集管理員所設計。透過整合 Popeye 工具的模式,該技能可以識別整個叢集生命週期中的錯誤配置、資源效率低下和安全漏洞。

  • 執行全面的叢集健康評估,包括節點、Pod 和服務狀態檢查。

  • 為常見故障模式(如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 和 PVC pending 狀態)執行自動化診斷。

  • 使用 stern 和 kubectl 等工具進行深度日誌分析,支援多 Pod 串流和事件解釋。

  • 驗證安全性與 RBAC 配置,包括檢測特權容器和 root 使用者執行緒。

  • 透過識別容器規格中缺失的資源限制 (limits) 和請求 (requests) 來優化資源分配。

  • 支援 OpenShift 特有的故障排除,涵蓋 SCC、Route、Operator 和自定義 BuildConfig。

  • 基於叢集類型檢測,提供標準 Kubernetes (kubectl) 與 OpenShift (oc) 操作之間的自動指令轉換。

  • 提供關於效能調校、可靠性改進和高可用性 (HA) 配置的自動建議。

  • 使用說明:此技能使用 kubectl 作為主要介面。請確保您在本地安裝了適當的 context、命名空間權限以及如 kubectl、oc、k9s 和 krew 等 CLI 工具。

  • 輸入:接受自然語言請求,例如「為什麼這個 Pod 當機?」、「檢查叢集安全性」或「找出 production 命名空間中的儲存問題」。

  • 輸出:提供診斷報告、可執行的修復步驟,以及解決已識別問題的直接 CLI 指令建議。

  • 限制:其可靠性取決於叢集連線狀態以及在相關命名空間上的讀取/列出存取權限。

倉庫統計

Star 數
4
Fork 數
1
Open Issue 數
0
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月4日 上午01:18
在 GitHub 查看