工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 292 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
获取 YouTube 和 Bilibili 视频字幕,支持自动摘要、问答与信息提取,基于 yt-dlp 实现。
管理客户关系、追踪后续行动,并利用基于 Obsidian 的客户资料自动草拟个性化电子邮件。
用于跨设备与团队管理代理技术的私人套件分发系统。通过中央库目录安装、同步、新增与更新您的代理、技能与提示词。
使用可靠的 Python 脚本将图像以 90 度为单位进行旋转。支持 PNG、JPG、GIF、BMP 和 TIFF 格式,确保图像质量并提供自动化文件处理。
适用于 MCP 的辩证推理与对抗式编码代理,通过强制 LLM 解决内部矛盾,产出更高质量的推理与代码。
全面的 AI 文本检测框架。通过词汇分析、结构模式、模型指纹与技术元数据比对,精准辨识 AI 生成内容与写作痕迹。
一个高性能 Liquid 模板引擎,通过中间语言 (IL) 将模板编译为优化的 Ruby 和机器码。
React 19 单页应用开发的架构治理与项目标准,确保技术栈集成、项目结构与代理执行规则的一致性。
OpenCode 代理的自我维护技能,用于更新文档、捕捉学习成果并动态扩展工具与代理功能。
一键发布 Markdown 文章到微信公众号草稿箱,基于 wenyan-cli,支持多主题、代码高亮、图片自动上传。
通过 OpenAI Codex 和 Google Gemini 获取架构、代码审查与调试的专家观点,并透明化展示所有 AI 推论与建议。