工程开发
nvidia-resiliency-ext avatar

nvidia-resiliency-ext

为 NVIDIA GPU 加速的分布式应用程序提供弹性、健康监控与容错工具,包含进程管理与 API 密钥处理功能。

简介

nvidia-resiliency-ext 技能集为分布式计算环境中基于 NVIDIA GPU 的工作负载,提供了一套强大的生命周期、健康状况与容错管理架构。此工具集主要针对从事大规模深度学习模型或高性能计算集群的软件工程师与 DevOps 从业人员所设计,确保代理能够可靠地与硬件及软件基础设施组件进行交互。通过抽象化 GPU 健康检查、进程同步与环境安全等复杂性,该技能使开发者能够构建更具弹性的训练与推理管线。

  • 通过 rendezvous barrier 同步机制提供先进的容错功能,确保集群中的所有节点在进行关键训练步骤前保持一致。

  • 集成了健康检查故障注入功能,用于在模拟 GPU 硬件故障期间测试系统行为的稳健性。

  • 完整的进程监控与管理工具,包括 PID 文件读取与守护程序等待机制,确保生命周期的稳定性。

  • 针对安全性设计的工具,用于从多种来源(如环境变量、特定文件或本地配置目录)检索 NVIDIA API 密钥。

  • 诊断功能可捕获日志与标准输出流,简化远程调试与排解故障的流程。

  • 提供递归对象比较 (diff)、内存效率张量预载以及通过 nvidia-smi 集成进行 Rendezvous 域识别的工具函数。

  • 使用属性工具安全地处理 API 凭证,避免在训练脚本中硬编码敏感数据。

  • 在实现需要跨多个 GPU 或节点进行严格协调的自定义训练循环时,请使用容错模块。

  • 将健康检查注入工具集成至 CI/CD 流水线,以验证在模拟故障期间分布式训练的恢复机制是否能正确触发。

  • 域识别工具可用于自动检测 nvidia-smi 的 ClusterUUID,从而根据 NVLink 域动态分配处理程序组。

  • 请注意,某些函数需要访问硬件驱动程序;请确保代理执行环境具备查询 nvidia-smi 及管理操作系统级进程的适当权限。监控 PID 时,请确保代理拥有足够的权限来向目标进程发送信号以进行健康验证。

仓库统计

Star 数
0
Fork 数
0
Open Issue 数
0
主要语言
Shell
默认分支
main
同步状态
空闲
最近同步时间
2026年5月4日 00:22
在 GitHub 查看