工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 24★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 526 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
使用 Axum、SQLx 和 thiserror 实现健壮的 Rust 后端服务,并运用生产级架构模式。
读取、写入与管理飞书 (Lark) 云文档。支持 Markdown、块操作、表格创建及多媒体附件上传。
一个统一的文档处理网关,支持 PDF 解析、文本提取、格式转换与跨多种本地及云端供应商的文档操作。
将教学内容(如逐字稿、教程)转化为可执行的「Ship-Learn-Next」循环,建立具体的实作计划与学习任务。
一套严格的四阶段方法论,强制要求在应用任何代码修复前,必须先进行系统性的根本原因分析。
自动生成 llms.txt 和 llms-full.txt 文件,为项目文档提供 AI 友好的阅读格式及项目上下文。
Claude Code 开发会话的自动化运行时可观测变更日志,追踪文件变更、测试结果与 Git 提交。
一种项目特定的技能模板,用于维护 AI 驱动全栈应用程序中的架构一致性、编码标准与部署流程。
为技术架构、复杂重构与结构化调试提供多视角 AI 咨询服务。
执行全面的代码审查,专注于安全性漏洞、性能优化、可维护性及代码正确性。
层级式目标跟踪系统,将三年愿景连接至每日任务。自动化计算进度、检测停滞目标,并整合 Obsidian 库中的项目与目标对齐。