evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 158 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
提取并记录真实的写作语气。为 AI 训练、代笔写作及品牌一致性建立详尽的语气指南。
获取全球城市的天气状况、温度、降雨预报及行程规划信息,协助您掌握实时气候信息。
Claude Messages API 专家指南:涵盖结构化输出、提示词缓存、工具使用,以及从 Claude 3.x 迁移至 4.5 的关键信息,协助开发者解决常见 API 错误与性能问题。
使用 Google Gemini API 进行深度视频分析:包含视频摘要、音频转录、时间戳提取、视频片段剪辑,并支持 YouTube 链接或本地文件,适用于多种模型与长文本上下文。
通过预注入验证强化 RAG 系统的认知质量,确保文档在进入知识库前皆经过严格定义与结构化校对。
智能 Apple Mail 收件箱扫描工具,可自动分析并分类未读、待办与优先级邮件。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
自动化文案转图片引擎,专为社交媒体贴文、文章封面与长图设计。支持 X 风格、微信公众号与海报模板,提供精准文字排版与高亮标注功能。
专为 Flask、Django 与 FastAPI 项目设计的 Python 安全扫描工具。支持 OWASP Top 10 风险检测、依赖包漏洞分析、硬编码密钥检测与框架专属安全审计。
分析会议逐字稿以揭示沟通模式、行为洞察及领导力反馈。识别冲突回避、赘词使用、发言比例及主动倾听,帮助您提升专业表达与影响力。
简化技术文档编写,协助生成、更新与完善 README 文件。针对开源项目贡献者、内部团队及个人项目提供定制化的内容与模板建议。