evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 540 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
SEO 与 AEO 优化最佳实践,涵盖 EEAT、JSON-LD 结构化数据、技术 SEO 及 AI 内容准备,适用于 Google、ChatGPT 及 Perplexity 等搜索与问答引擎。
CLI 专用 iOS 开发代理,支持 Swift、SwiftUI 与 UIKit。完整覆盖构建、调试、测试与发布生命周期,无需 Xcode。
专业的 SwiftUI 助手,协助审核、重构与构建高效、可测试且现代化的 iOS 应用程序,并遵循 Apple 的最佳实践。
通过 Sosumi 服务获取 Apple 平台开发文档、人机界面指南 (HIG) 与 WWDC 演讲逐字稿的 Markdown 内容。
提供编译二进制文件中 DWARF 格式调试信息的专业技术指导,包含解析、分析与调试功能。
为 Django 生产环境服务器与工作程序提供标准化配置与管理。
专为 morphir-dotnet 设计的专业 QA 测试代理,涵盖测试计划、回归测试、端到端验证、错误报告及套件验证。
针对 LaTeX 与 Quarto 课程文件进行自动化且非破坏性的校对,并针对语法、错字与学术风格产生质量评估报告。
为初创企业构建 3-5 年财务模型,涵盖收入预测、成本结构、现金流分析及情境规划,支持募资与运营决策。
通过 OpenAI Codex 和 Google Gemini 获取架构、代码审查与调试的专家观点,并透明化展示所有 AI 推论与建议。
一套基于 GTD 方法论的个人生活操作系统,整合 Todoist 任务管理、Logseq 生活追踪与 AI 数据分析,实现高效的时间与习惯管理。