pytorch-lightning
PyTorch Lightning 深度学习框架技能:自动化模型训练、多 GPU 编排、数据管道以及 DDP、FSDP 和 DeepSpeed 等分布式训练策略。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 130 个技能
PyTorch Lightning 深度学习框架技能:自动化模型训练、多 GPU 编排、数据管道以及 DDP、FSDP 和 DeepSpeed 等分布式训练策略。
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
使用 Flow Nexus 平台在分布式 E2B 沙盒中训练与管理神经网络,支持 Transformer、LSTM 和 GAN 等自定义架构。
为 NVIDIA GPU 加速的分布式应用程序提供弹性、健康监控与容错工具,包含进程管理与 API 密钥处理功能。
使用 Cloudflare Agents SDK 在 Workers 上构建有状态的 AI 代理。支持实时 WebSocket、持久化状态管理、定时后台任务与工具集成,专为生产环境设计。
使用 Stable Baselines3 进行生产级强化学习。通过类 scikit-learn API 训练智能体、设计自定义环境、实现训练回调函数并优化工作流程。
使用 agentic-flow 编排多代理群体,支持并行任务执行、动态拓扑与智能协调。适用于构建分布式 AI 系统与扩展复杂的开发工作流程。
架构多代理系统以突破上下文限制,运用监督者、群体与分层模型等模式来管理复杂工作流程。
通过将独立的调试或开发任务委派给具备独立上下文的专职子代理,实现并行化执行。
为研究、开发与测试工作流部署网格、层级与星状拓扑等进阶多代理人蜂群编排策略。
通过协调多个专业 AI 代理来执行复杂工作流,实现多角度代码分析、功能开发与系统级审查的自动化编排。
P9 技术领队模式:通过任务提示(六要素)管理 P8 代理团队,无需亲自编写代码。负责项目管理、任务拆解,并协调 3 个以上平行代理执行任务。