trulens-evaluation-workflow
使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 138 个技能
使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。
使用 AI 驱动的分析技术,将现有项目迁移至 AgenticDev 结构。自动分类文档、生成丰富的 YAML 元数据,并完整保留 git 历史记录。
AI 语言学习导师,提供对话练习、语法教学、单词训练及字卡记忆。支持超过 100 种语言,包含西班牙语、法语、日语及中文等。
自动化 Payload CMS 核心套件与插件的本地化翻译字符串生成与同步。
用于构建健壮 AI Agent 技能的元技能,采用测试驱动开发 (TDD) 方法:定义失败 (RED)、实现技能 (GREEN) 并修补合理化漏洞 (REFACTOR)。
发现并安装代理技能以扩展 DeerFlow 功能。使用此技能搜索适用于编码、测试、部署等任务的工具、工作流程或专业知识。
一个受强化学习启发的 YouTube 绩效追踪工具,通过系统化记录来优化缩图、标题与视频钩子。
诊断、隔离并缓解 LLM 上下文故障(如中间丢失、中毒、干扰及冲突),提升 AI 代理的执行可靠性。
将现有的 OpenAI Apps SDK 应用程序迁移到 MCP Apps SDK,提供分步指导、API 映射表以及内容安全策略 (CSP) 调查工作流程。
分析并识别代码库模式(命名、架构、测试),以确保开发过程中的一致性与标准执行。
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
使用向量数据库、语义搜索与 LangGraph 构建生产级 RAG 系统,为 LLM 提供外部知识基础。