debug-distributed
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 250 个技能
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
使用 uv 管理 Python 环境与套件。提供快速、现代化的项目设置、依赖管理、指令码执行与工具安装指引,作为 pip、virtualenv 与 poetry 的极速替代方案。
建立、管理与调试 dlt (data load tool) 数据管道,将数据从 API、数据库及自定义来源导入 DuckDB、BigQuery 或 Snowflake 等目标。
通过分析可用技能、制定结构化执行计划并管理手动或委派的多步骤工作流程,来统筹复杂的编程任务。
通过基于协议的行为治理,协调 Claude Code 并行工作集群,以执行复杂功能开发、多步骤重构及长时间运行的自动化编程任务。
管理 SignalRoom 营销平台的 dlt 数据管道与 Temporal 工作流。支持同步 Everflow、Redtrack 与 S3 数据至 Postgres,并执行状态检查与调试。
NestJS 11+ 企业级 Node.js 开发专家,涵盖依赖注入、DTO 验证、身份验证、ORM、测试、微服务及架构最佳实践。
基于 Google A2A 协议的多智能体协作框架。实现了基于 CLI 的 AI 工具间的消息传递、任务委派与自动化协调。
为 Claude Code 设计的嵌套插件架构,通过动态加载 Playbooks、Skills 与 Agents,有效节省超过 90% 的上下文标记空间。
Claude Code 的自动工具与 MCP 服务器探索。并行搜索 17 个以上资源库,在规划前或发生错误时自动寻找相关技能、插件与工具。
自动化 Python 虚拟环境管理器,用于项目隔离、依赖管理与生命周期验证。
一个模块化的数据处理工具,用于清理、验证和分析 CSV 文件,支持自定义转换及自动化依赖管理。