工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 194 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
一种项目特定的技能模板,用于维护 AI 驱动全栈应用程序中的架构一致性、编码标准与部署流程。
使用 OpenAI Agents SDK (Python) 构建 AI 代理。支持多代理协作、函数工具、状态化会话、流式传输以及通过 LiteLLM 进行 Azure OpenAI 集成。
建立与管理生产级 Grafana 仪表板,用于系统可观测性、实时指标可视化与监控。
安全地执行、测试并验证文档中的命令,支持真实输出捕获、性能跟踪与 Git 安全协议。
使用 PyMC 进行贝叶斯建模与概率编程。构建分层模型,执行 MCMC 采样 (NUTS) 与变分推断,并透过 LOO/WAIC 进行严谨的模型比较与后验检查。
加速在 Lovable 上进行临床与医疗应用开发。专为 OpenClaw 临床黑客松参与者设计,提供临床 MVP 开发与安全合规实践。
为 Julia 代理系统设计与实现高质量工具架构与描述的专家指引,确保工具执行可靠性并减少模型幻觉。
运用 PACT(主动、自主、协作、目标导向)原则的整体测试模型,为现代软件系统构建质量文化与测试策略。
以英国皇家海军中队为隐喻的软件开发多代理协调系统,具备任务规划、并行任务协调与严谨的审计日志功能。
通过 ReasoningBank 实现代理程序的自适应学习,进行模式识别、策略优化与持续改进。
用于管理、构建及部署 Agent Skills 的命令行工具,支持将技能打包为 OCI 成品并在生态系统中共享。