debug-distributed
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 163 个技能
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
Litestream 灾难恢复工具的专家技术支持,涵盖 WAL 监控、LTX 复制、云存储后端以及 SQLite 页面管理。
为事件溯源系统设计并实现强大且可扩展的事件存储,涵盖架构模式、技术选择及持久化策略。
使用 agentic-flow 编排多代理群体,支持并行任务执行、动态拓扑与智能协调。适用于构建分布式 AI 系统与扩展复杂的开发工作流程。
MERIDIAN 自主 AI 代理实现模式,包含 BaseAgent 生命周期、Claude API 结构化工具调用、Token 配额管理与 cron 调度系统。
lemline-core 开发指南。适用于无状态 Serverless Workflow 引擎,涵盖工作流执行、节点导航、状态转换、JQ 表达式评估、错误处理及并行分支逻辑。
使用 Cloudflare Agents SDK 在 Workers 上构建有状态的 AI 代理。支持实时 WebSocket、持久化状态管理、定时后台任务与工具集成,专为生产环境设计。
通过 SSE 协议直接连接 RagCode MCP,无需繁琐的配置文件或二进制文件依赖。
通过将独立的调试或开发任务委派给具备独立上下文的专职子代理,实现并行化执行。
Arma Reforger EnforceScript 开发指南,涵盖组件架构、网络同步、持久化存档与内存管理。
Django Celery 异步任务处理专家指南。提供任务设计、工作节点配置、错误处理、定期任务与生产环境监控的最佳实践。
强制执行 UI 严格遵守项目设计系统的标记、组件与布局规范,以确保前端开发的一致性。