工程開發
debug-distributed avatar

debug-distributed

AReaL 分散式訓練除錯指南,涵蓋 FSDP2/TP/CP/EP 環境下的掛起、NCCL 錯誤、記憶體不足與數值一致性問題。

安裝

Agent 類型

Claude Code

安裝指令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/debug-distributed/install?os=mac&agent=claude" | bash
安裝指令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/debug-distributed/install?os=windows&agent=claude" -o install-debug-distributed.bat && install-debug-distributed.bat

下載技能專案

/agent-skill/debug-distributed