工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 335 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
用于质谱数据处理的 Python 工具包。支持质谱文件导入 (mzML, MGF, MSP)、元数据标准化、峰值过滤,以及代谢组学中的光谱相似度评分(余弦、修正余弦)计算。
诊断、隔离并缓解 LLM 上下文故障(如中间丢失、中毒、干扰及冲突),提升 AI 代理的执行可靠性。
系统化的项目技术栈检测、框架特定技能自动加载,以及针对 React + Go 等全栈项目的多技术栈分析。
自动化建立隔离的 git worktree 环境,用于并行功能开发与环境设置。
自动化整理发票和收据以进行税务准备。通过读取混乱文件、提取关键财务信息、统一重命名文件并将其分类存储到逻辑文件夹中。
自动保持 README 文件与代码库变更同步,涵盖依赖项、新功能及配置更新。
llmemory 文档存储与搜索入门:涵盖安装、pgvector 数据库配置、文档导入、混合/语义检索,以及构建具备多租户支持的 RAG 系统。
通过 7 步骤编辑框架系统性地优化营销文案,提升清晰度、语气与转化率。
自动化 GitHub Issue 分析、分类与解决方案规划工具,完全整合规格驱动开发 (SDD) 工作流程。
研究技术文档并自动生成可直接使用的 Markdown 格式软件代理技能。
将工作阶段的经验转化为可重用的智能基础设施 (RII)。将一次性的修复与模式发现转变为永久的代理执行知识,防止问题重现并加速后续开发。