evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 493 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
高级 AI 代理工作流编排,支持多模型路由、Codex 沙盒迭代、并行 swarm 执行及复杂管线中的持久化内存功能。
从研究报告到成品 PDF 的全自动论文写作流水线。
层级式目标跟踪系统,将三年愿景连接至每日任务。自动化计算进度、检测停滞目标,并整合 Obsidian 库中的项目与目标对齐。
使用自动化子代理程序抓取并汇总最新的 Posit 新闻、博客文章、播客、视频内容与活动公告。
全球情报自动汇总工具,生成结构化市场、政经与 AI 新闻报告。支持 RSS 聚合、重大事件分级告警与智能推演,帮助用户高效掌握全球动态。
为 Turso 数据库执行严格的代码质量、正确性及 Rust 设计模式,优先考虑数据完整性、性能以及易于维护的惯用语法。
初始化开发会话,包含环境健康检查、任务状态同步,以及为 Claude Code 恢复上下文记忆。
支持 Claude、GPT、Gemini 和 Ollama 的多模型 LLM 集成方案。涵盖 API 对接、提示工程、Token 管理及模型中立的编排架构。
管理、搜索并从本地论文数据库中提取技术见解。适合开发者实作学术研究、验证代码与数学逻辑,以及为 AI 编程代理提供科学论文背景资料。
Helm Chart 开发与部署的快速参考工具,提供 Kubernetes 模板语法与自动化部署建议。
使用精选的高质量来源建立新闻、技术趋势和研究论文摘要。适用于每日新闻摘要、主题追踪与过滤信息噪音。