k8s-troubleshooter
系統化 Kubernetes 疑難排解、Pod 診斷、叢集健康監控與事故回應指南。
簡介
此技能為 DevOps 工程師與 SRE 提供了一套完整的工具包,用於 Kubernetes 環境中的系統化疑難排解。它透過自動化收集診斷數據並針對生產環境問題提供可執行的見解,來簡化事故回應流程。無論您面臨的是常見的排程錯誤、資源限制還是複雜的網路故障,該代理程式都會引導您完成診斷流程,以最大限度地縮短平均修復時間 (MTTR)。
-
自動化分流:執行即時叢集健康檢查,識別所有命名空間中非執行中的 Pod,並使用 kubectl 與基於 Python 的診斷指令碼分析節點資源利用率。
-
Pod 深度調查:檢索日誌、事件與設定詳情,以疑難排解如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 與 Pending 狀態等常見故障模式。
-
命名空間健康分析:執行自動化指令碼以評估特定命名空間內的部署可用性、服務端點、PVC 儲存狀態與資源配額使用情況。
-
結構化事故回應:遵循針對 SEV-1 到 SEV-4 事故的既定指南,包括評估、調查、解決方案與事故後審查程序。
-
資源與網路除錯:獲取關於節點 DiskPressure、NotReady 狀態、網路政策與永續磁碟區連線問題的視覺化資訊。
-
當遇到與 Kubernetes 元件、Pod、服務或儲存磁碟區相關的錯誤時,請啟用此技能。
-
輸入需求:進行特定資源調查時,請提供命名空間與物件名稱(Pod、服務、節點)。
-
預期產出:清晰的診斷結果、根本原因分析、建議的補救步驟與驗證指令。
-
營運情境:專為生產級環境設計,重視安全性、變更記錄與修復後的行為監控。
-
限制:需要存取 kubectl 的權限、目標叢集上足夠的 RBAC 權限,並需安裝 python3 以執行高階診斷指令碼。
倉庫統計
- Star 數
- 139
- Fork 數
- 26
- Open Issue 數
- 1
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午05:54