Agent Skills Hub

探索可复用的代理技能，查看实现细节，快速找到适合你工作流程的技能。

共找到 137 个技能

工程开发数据分析研究

evaluation

为 AI 代理构建系统化的评估框架，利用多维评分标准、LLM-as-a-judge 与回归测试，量测代理效能、质量及上下文工程的有效性。

浏览: 23★ 15,339

工程开发自动化

eval

通过自动化测试执行器、人工 LLM 判断与结构化报告，评估 Deca 代理提示词与行为一致性。

浏览: 17★ 1

生产力内容创作教育

prompt-rewriter

进阶提示词改写与优化服务。分析提示词的清晰度、具体性与结构，提供可执行的优化建议、多种变体选项，并教授提示工程的最佳实践。

浏览: 20★ 4,453

工程开发自动化

eval-harness

克劳德代码会话的正式评估框架，实施评估驱动开发（EDD）原则，用于保障 AI 代理的可靠性。

浏览: 30★ 169,888

研究教育内容创作

peer-review

结构化手稿与经费审查助手，提供基于检查清单的评估，涵盖方法论、统计效度及报告标准（如 CONSORT/STROBE）合规性检核。

浏览: 27★ 19,688

研究教育生产力

scholar-evaluation

使用 ScholarEval 框架系统性地评估学术研究工作，针对研究质量维度提供结构化的定量与定性分析，并提供具备执行力的反馈建议。

浏览: 8★ 19,706

工程开发数据分析自动化

trulens-evaluation-workflow

使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程，支持 LangChain、LangGraph 与 LlamaIndex 等框架。

浏览: 11★ 3,286#trulens#llm#evaluation#workflow

研究内容创作工程开发

ai-writing-detection

全面的 AI 文本检测框架。通过词汇分析、结构模式、模型指纹与技术元数据比对，精准辨识 AI 生成内容与写作痕迹。

浏览: 12★ 1,108

工程开发生产力

context-compression

通过先进的上下文压缩、结构化摘要与任务导向的状态管理，为长期运行的 AI 代理会话优化性能并降低 Token 使用量。

工程开发研究

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试，提供多语言编码模型的 pass@k 指标评估。

浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP

生产力工程开发数据分析内容创作研究

ai-multimodal

使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成，具备超长上下文窗口，适用于复杂的多模态 AI 任务。

浏览: 14★ 9