工程开发
debug-distributed
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
浏览: 4★ 5,126
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 133 个技能
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
一套规范驱动的工作流程管理系统,用于结构化的开发生命周期管理,涵盖提案、规划、实现及归档阶段。
执行严谨的多阶段 Fagan 检查,以系统化方式解决持续存在、难以处理的程序错误与复杂的代码交互问题。
添加 evlog 框架集成:通过标准化中间件、构建配置、测试与文档,实现全栈自动化广域事件日志记录。
Claude Code 项目启动工具,包含安全防护、Git 工作流程自动化、项目审计以及结构化多阶段规划。
AI 优化项目追踪系统,利用 YAML 与 Markdown 混合格式,实现高效率的项目编排、阶段管理与自动化任务委派,大幅降低 Token 消耗。
应用六顶思考帽方法论于软件测试,进行结构化与全面的质量分析、测试策略设计以及团队讨论。
专业的 Swift 代码审查工具,适用于 macOS/iOS。通过并行分析代理检测内存泄漏、线程错误、并发问题及无障碍功能缺陷。
Java Spring Boot 后端架构指导与模式实现,涵盖 REST API 设计、JPA、缓存、异步处理及日志记录。
AI 驱动的 Kubernetes 与 OpenShift 故障排除工具。通过仿照 Popeye 的模式进行主动式集群健康评估、调试 Pod 失败、分析日志并验证安全性。
使用 FlashInfer API 日志功能排查与解决 CUDA 运行时崩溃的教学指南。
通过 xctrace 进行原生 macOS/iOS 应用程序性能分析,并在无需开启 Instruments UI 的情况下进行命令行热点分析。