工程开发
debug-distributed
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
浏览: 4★ 5,126
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 128 个技能
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
用于构建健壮 AI Agent 技能的元技能,采用测试驱动开发 (TDD) 方法:定义失败 (RED)、实现技能 (GREEN) 并修补合理化漏洞 (REFACTOR)。
提取并记录真实的写作语气。为 AI 训练、代笔写作及品牌一致性建立详尽的语气指南。
将气象与环境变量分类为驱动因素类别,以进行一致的归因分析与环境建模。
全方位 Python 医疗 AI 工具包,用于临床数据处理、医学编码转换,以及开发用于 EHR、生理信号和临床预测任务的深度学习模型(如 RETAIN 与 Transformer)。
用于部署、管理和监控 DataRobot 模型的工具,包含预测环境配置、冠军/挑战者模型工作流程以及部署操作。
为初创企业构建 3-5 年财务模型,涵盖收入预测、成本结构、现金流分析及情境规划,支持募资与运营决策。
使用 Chrome DevTools MCP 和 AI 视觉模型进行 UI 测试、设计一致性验证及浏览器调试。
维护并更新 MassGen 模型注册表,包含后端能力、模型元数据、定价结构以及新旧 AI 模型的上下文窗口配置。
基于 Notion 的推文性能追踪系统,通过强化学习原理实现数据驱动的内容实验与优化。
客户问题与调查研究工具,提供多来源信息整合、事件追踪、账户历史记录查询,并包含来源标注与信赖度评分。
根据 litellm 注册表审核并同步 assets.py 中的支持 LLM 模型列表。