evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 192 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
为 AI 代理设计的自动化记忆管理中间件,通过“查-回-存”闭环实现跨对话的长期记忆维持与上下文自动管理。
一个用于查询、解析并将 SEC EDGAR 申报文件、财务报表及机构持股数据转化为结构化 Python 对象的完整程序库。
一套全面的警句与名言管理系统,用于主题内容丰富化、研究与简报策划。
Fabric CLI 智能模式选择工具,从 242+ 种专业提示中自动选取最合适的模式,支持威胁建模、数据分析、摘要与内容创作。
SEO 优化内容大纲模板与创作方法论,适用于内容写作者与营销规划。
使用 curl 从公开分享的 Google 文档中可靠地读取并提取内容,确保获取完整文件。
基于 DuckDB 的持久化状态管理与工作流程分析工具,支持任务依赖追踪、历史指标与上下文检查点功能。
使用 markitdown 将各种文档、媒体和网页内容转换为 Markdown,非常适合大语言模型处理和文本分析。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
为 Python 代码提供 6 阶段只读分析的工作流程,根据项目类型(从 POC 到开源)检测设计原则违规、代码异味并建议现代化改善方案。
从 DeepEar Lite 平台获取即时金融信号、传导链推理及市场信心指标,协助 AI 代理进行深度市场分析。