Agent Skills Hub

探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。

清除

共找到 137 个技能

工程开发数据分析研究
evaluation avatar

evaluation

为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。

浏览: 2315,339
工程开发自动化
eval avatar

eval

通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。

浏览: 171
生产力内容创作教育
prompt-rewriter avatar

prompt-rewriter

进阶提示词改写与优化服务。分析提示词的清晰度、具体性与结构,提供可执行的优化建议、多种变体选项,并教授提示工程的最佳实践。

浏览: 204,453
工程开发自动化
eval-harness avatar

eval-harness

克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。

浏览: 30169,888
研究教育内容创作
peer-review avatar

peer-review

结构化手稿与经费审查助手,提供基于检查清单的评估,涵盖方法论、统计效度及报告标准(如 CONSORT/STROBE)合规性检核。

浏览: 2719,688
研究教育生产力
scholar-evaluation avatar

scholar-evaluation

使用 ScholarEval 框架系统性地评估学术研究工作,针对研究质量维度提供结构化的定量与定性分析,并提供具备执行力的反馈建议。

浏览: 819,706
工程开发数据分析自动化
trulens-evaluation-workflow avatar

trulens-evaluation-workflow

使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。

浏览: 113,286#trulens#llm#evaluation#workflow
研究内容创作工程开发
ai-writing-detection avatar

ai-writing-detection

全面的 AI 文本检测框架。通过词汇分析、结构模式、模型指纹与技术元数据比对,精准辨识 AI 生成内容与写作痕迹。

浏览: 121,108
工程开发生产力
context-compression avatar

context-compression

通过先进的上下文压缩、结构化摘要与任务导向的状态管理,为长期运行的 AI 代理会话优化性能并降低 Token 使用量。

浏览: 19
工程开发研究
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。

浏览: 197,624#Evaluation#Code Generation#HumanEval#MBPP
生产力工程开发数据分析内容创作研究
ai-multimodal avatar

ai-multimodal

使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。

浏览: 149
工程开发生产力
ai-collaboration-standards avatar

ai-collaboration-standards

防止 AI 幻觉,确保在分析代码、技术文档或提供建议时,输出具备证据支持且可验证的内容。

浏览: 2744