evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 137 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。
进阶提示词改写与优化服务。分析提示词的清晰度、具体性与结构,提供可执行的优化建议、多种变体选项,并教授提示工程的最佳实践。
克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。
结构化手稿与经费审查助手,提供基于检查清单的评估,涵盖方法论、统计效度及报告标准(如 CONSORT/STROBE)合规性检核。
使用 ScholarEval 框架系统性地评估学术研究工作,针对研究质量维度提供结构化的定量与定性分析,并提供具备执行力的反馈建议。
使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。
全面的 AI 文本检测框架。通过词汇分析、结构模式、模型指纹与技术元数据比对,精准辨识 AI 生成内容与写作痕迹。
通过先进的上下文压缩、结构化摘要与任务导向的状态管理,为长期运行的 AI 代理会话优化性能并降低 Token 使用量。
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
防止 AI 幻觉,确保在分析代码、技术文档或提供建议时,输出具备证据支持且可验证的内容。