evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 320 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
一套用于构建稳健 LLM 集成的工具包:包含 API 模式、流式传输、函数调用、RAG 流水线及具成本效益的模型路由。
下载并分析 YouTube 视频字幕,提取技术洞察、总结复杂教程,并将视频内容与您的代码库关联起来。
将聊天对话转化为 Notion 中的结构化文档,将见解、决策和知识保存到您的工作区,并进行妥善整理。
全球情报自动汇总工具,生成结构化市场、政经与 AI 新闻报告。支持 RSS 聚合、重大事件分级告警与智能推演,帮助用户高效掌握全球动态。
基于 Exa AI 的神经网络搜索与代码上下文检索。适用于技术文档查询、代码示例搜索、研究报告及企业信息搜集。
通过苏格拉底式提问深入探讨信念、挖掘隐藏假设、检验证据,并在不说教的情况下达成深层理解的思考框架。
结构化推理工具,用于复杂问题分解、分步分析、一致性验证以及带有置信度评分的证据合成。
为 LangChain 应用程序提供统一接口,整合并管理 OpenAI、Anthropic、Google、Azure 和 Bedrock 等 LLM 聊天模型服务。
结构化平行头脑风暴代理,专注于概念构思与扩展。通过多代理视角将模糊想法转化为实用愿景。仅限构思,不用于任务规划。
手动触发 Hipocampus 内存刷新,将当前对话上下文存入原始日志,并启动压缩树程序,以维护 AI 代理的长期记忆。
利用 Azure OpenAI GPT Realtime Mini 模型与 WebSocket 流媒体技术,生成 AI 播客风格的音频叙事,包含 PCM 转 WAV 及前端播放整合。