vm-infrastructure-ops
管理與排除運行 eth-realtime-collector 的 GCP e2-micro VM 故障。處理 systemd 錯誤、網路連線問題,並監控以太坊即時資料流的穩定性。
簡介
此技能為管理部署於 GCP e2-micro 實例上的 eth-realtime-collector 提供完整的操作工具組。它專為維護以太坊網路資料管線的工程師設計,確保關鍵基礎設施維持高可用性。此技能簡化了常見生產環境問題的分類與處理過程,例如服務崩潰、gRPC 元資料驗證錯誤、DNS 解析失敗以及 ClickHouse 資料下游缺口。透過提供狀態檢查、日誌分析與復原的標準化流程,它能最大限度地減少基礎設施不穩定期間的停機時間。
-
即時監控 eth-collector 服務狀態與 systemd 生命周期管理。
-
使用 journalctl 進行進階日誌串流,以快速調試連線拒絕、gRPC 錯誤或元資料伺服器無法觸達等問題。
-
透過包含部署前檢查的託管重啟腳本進行自動化服務復原。
-
當網路連線完全中斷時,執行緊急基礎設施介入,包括 VM 硬重設。
-
資料流驗證管線,確認區塊已成功送達 ClickHouse 資料庫。
-
目標對象:DevOps 工程師、SRE 及管理區塊鏈擷取管線的資料工程師。
-
使用案例:透過辨識服務失敗模式或底層 GCP 網路問題,解決「未收到區塊」的警報。
-
先決條件:有效的 GCP 專案存取權限 (eonlabs-ethereum-bq)、已設定的 gcloud CLI,以及 us-east1-b 區域的存取權。
-
操作最佳實踐:在嘗試完整的 VM 重設前,請務必先透過狀態工作流程檢查服務健康狀況。使用提供的日誌串流功能,以區分暫時性服務錯誤與持續性基礎設施故障。
-
限制:專門針對 eth-realtime-collector 的部署;在執行驗證腳本前,請確保已載入正確的環境憑證。
倉庫統計
- Star 數
- 0
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午06:32