evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 473 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
vibe-coding 工作流程的最终执行代理。根据 AGENTS.md 主计划逐步构建 MVP,管理会话连续性,并通过测试验证每个功能。
全面的生物信号处理工具包,用于分析心电图、脑电图、皮肤电活动等信号,支持心理生理学研究及多模态整合。
搜索、分析并审计 GeminiClaw 会话记录与记忆。用于调查过往交互、追踪 Token 用量、调试工具调用及监控代理程序性能。
为所有软件开发任务提供强制性的执行验证。在确认结果前,通过实际运行来确保代码功能正确。
为 Claude 提供的专业级电子表格自动化工具:创建、编辑、分析与可视化 Excel 和 CSV 文件,严格遵守公式完整性与财务格式标准。
通过 7 步骤编辑框架系统性地优化营销文案,提升清晰度、语气与转化率。
FFmpeg 生产级自动化工具,用于视频与音频处理,包含剪辑、合并、格式转换、编码器优化及滤镜应用。
AI 驱动的 GitHub Actions 自动化,具备群体智能工作流编排、智能 CI/CD 流水线管理及自主仓库维护功能。
一种结构化的决策工具,应用 RICE、MoSCoW、Kano 和价值与努力等框架,通过数据驱动的客观性来确定软件功能、产品路线图项目以及开发与否的决策优先级。
自动化 GitHub 发布流程,根据传统提交信息生成格式化的更新日志,并自动处理版本号更新。
将内容属性与 GA4 和 GSC 指标进行关联分析,以识别绩效驱动因素并挖掘优化机会。