debug-distributed
AReaL 分散式訓練除錯指南,涵蓋 FSDP2/TP/CP/EP 環境下的掛起、NCCL 錯誤、記憶體不足與數值一致性問題。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 133 個技能
AReaL 分散式訓練除錯指南,涵蓋 FSDP2/TP/CP/EP 環境下的掛起、NCCL 錯誤、記憶體不足與數值一致性問題。
一套規範驅動的工作流程管理系統,用於結構化的開發生命週期管理,涵蓋提案、規劃、實作及歸檔階段。
執行嚴謹的多階段 Fagan 檢查,以系統化方式解決持續存在、難以處理的程式錯誤與複雜的程式碼互動問題。
添加 evlog 框架整合:透過標準化中介軟體、建構配置、測試與文檔,實現全端自動化廣域事件日誌記錄。
Claude Code 專案啟動工具,包含安全防護、Git 工作流程自動化、專案審計以及結構化多階段規劃。
AI 優化專案追蹤系統,利用 YAML 與 Markdown 混合格式,實現高效率的專案編排、階段管理與自動化任務委派,大幅降低 Token 消耗。
應用六頂思考帽方法論於軟體測試,進行結構化與全面的品質分析、測試策略設計以及團隊討論。
專業的 Swift 程式碼審查工具,適用於 macOS/iOS。透過平行分析代理偵測記憶體洩漏、執行緒錯誤、併發問題及無障礙功能缺陷。
Java Spring Boot 後端架構指導與模式實作,涵蓋 REST API 設計、JPA、快取、非同步處理及日誌記錄。
AI 驅動的 Kubernetes 與 OpenShift 故障排除工具。透過仿照 Popeye 的模式進行主動式叢集健康評估、除錯 Pod 失敗、分析日誌並驗證安全性。
使用 FlashInfer API 日誌功能排查與解決 CUDA 運行時崩潰的教學指南。
透過 xctrace 進行原生 macOS/iOS 應用程式效能分析,並在無需開啟 Instruments UI 的情況下進行命令列熱點分析。