工程開發
nvidia-resiliency-ext avatar

nvidia-resiliency-ext

為 NVIDIA GPU 加速的分散式應用程式提供彈性、健康監控與容錯工具,包含進程管理與 API 金鑰處理功能。

簡介

nvidia-resiliency-ext 技能集為分散式運算環境中基於 NVIDIA GPU 的工作負載,提供了一套強大的生命週期、健康狀況與容錯管理架構。此工具集主要針對從事大規模深度學習模型或高效能運算叢集的軟體工程師與 DevOps 從業人員所設計,確保代理程式能可靠地與硬體及軟體基礎架構元件進行互動。透過抽象化 GPU 健康檢查、進程同步與環境安全等複雜性,該技能使開發者能夠建構更具彈性的訓練與推論管線。

  • 透過 rendezvous barrier 同步機制提供先進的容錯功能,確保叢集中的所有節點在進行關鍵訓練步驟前保持一致。

  • 整合了健康檢查故障注入功能,用於在模擬 GPU 硬體故障期間測試系統行為的穩健性。

  • 完整的進程監控與管理工具,包括 PID 檔案讀取與守護程序等待機制,確保生命週期的穩定性。

  • 針對安全性設計的工具,用於從多種來源(如環境變數、特定檔案或本機設定目錄)擷取 NVIDIA API 金鑰。

  • 診斷功能可捕捉日誌與標準輸出串流,簡化遠端偵錯與排解故障的流程。

  • 提供遞迴物件比較 (diff)、記憶體效率張量預載以及透過 nvidia-smi 整合進行 Rendezvous 網域識別的工具函式。

  • 使用屬性工具安全地處理 API 憑證,避免在訓練指令碼中硬編碼敏感資料。

  • 在實作需要跨多個 GPU 或節點進行嚴格協調的自訂訓練迴圈時,請使用容錯模組。

  • 將健康檢查注入工具整合至 CI/CD 管線,以驗證在模擬故障期間分散式訓練的恢復機制是否能正確觸發。

  • 網域識別工具可用於自動偵測 nvidia-smi 的 ClusterUUID,從而根據 NVLink 網域動態分配處理程序群組。

  • 請注意,某些函式需要存取硬體驅動程式;請確保代理程式執行環境具備查詢 nvidia-smi 及管理作業系統級進程的適當權限。監控 PID 時,請確保代理程式擁有足夠的權限來向目標進程發送訊號以進行健康驗證。

倉庫統計

Star 數
0
Fork 數
0
Open Issue 數
0
主要語言
Shell
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月4日 上午12:22
在 GitHub 查看