工程开发
debug-distributed avatar

debug-distributed

AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。

安装

Agent 类型

Claude Code

安装命令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/debug-distributed/install?os=mac&agent=claude" | bash
安装命令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/debug-distributed/install?os=windows&agent=claude" -o install-debug-distributed.bat && install-debug-distributed.bat

下载技能项目

/agent-skill/debug-distributed