工程開發
k8s-troubleshooter avatar

k8s-troubleshooter

系統化 Kubernetes 疑難排解、Pod 診斷、叢集健康監控與事故回應指南。

簡介

此技能為 DevOps 工程師與 SRE 提供了一套完整的工具包,用於 Kubernetes 環境中的系統化疑難排解。它透過自動化收集診斷數據並針對生產環境問題提供可執行的見解,來簡化事故回應流程。無論您面臨的是常見的排程錯誤、資源限制還是複雜的網路故障,該代理程式都會引導您完成診斷流程,以最大限度地縮短平均修復時間 (MTTR)。

  • 自動化分流:執行即時叢集健康檢查,識別所有命名空間中非執行中的 Pod,並使用 kubectl 與基於 Python 的診斷指令碼分析節點資源利用率。

  • Pod 深度調查:檢索日誌、事件與設定詳情,以疑難排解如 CrashLoopBackOff、ImagePullBackOff、OOMKilled 與 Pending 狀態等常見故障模式。

  • 命名空間健康分析:執行自動化指令碼以評估特定命名空間內的部署可用性、服務端點、PVC 儲存狀態與資源配額使用情況。

  • 結構化事故回應:遵循針對 SEV-1 到 SEV-4 事故的既定指南,包括評估、調查、解決方案與事故後審查程序。

  • 資源與網路除錯:獲取關於節點 DiskPressure、NotReady 狀態、網路政策與永續磁碟區連線問題的視覺化資訊。

  • 當遇到與 Kubernetes 元件、Pod、服務或儲存磁碟區相關的錯誤時,請啟用此技能。

  • 輸入需求:進行特定資源調查時,請提供命名空間與物件名稱(Pod、服務、節點)。

  • 預期產出:清晰的診斷結果、根本原因分析、建議的補救步驟與驗證指令。

  • 營運情境:專為生產級環境設計,重視安全性、變更記錄與修復後的行為監控。

  • 限制:需要存取 kubectl 的權限、目標叢集上足夠的 RBAC 權限,並需安裝 python3 以執行高階診斷指令碼。

倉庫統計

Star 數
139
Fork 數
26
Open Issue 數
1
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午05:54
在 GitHub 查看