Agent Skills Hub

探索可重用的代理技能，查看實作細節，快速找到適合你工作流程的技能。

共找到 137 個技能

工程開發資料分析研究

evaluation

為 AI 代理構建系統化的評估框架，利用多維評分標準、LLM-as-a-judge 與回歸測試，量測代理效能、品質及上下文工程的有效性。

瀏覽: 23★ 15,339

工程開發自動化

eval

透過自動化測試執行器、人工 LLM 判斷與結構化報告，評估 Deca 代理提示詞與行為一致性。

瀏覽: 17★ 1

生產力內容創作教育

prompt-rewriter

進階提示詞改寫與優化服務。分析提示詞的清晰度、具體性與結構，提供可執行的優化建議、多種變體選項，並教授提示工程的最佳實踐。

瀏覽: 20★ 4,453

工程開發自動化

eval-harness

AI 代理會話的正式評估框架，實施評估驅動開發 (EDD) 原則以確保代理可靠性。

瀏覽: 30★ 169,888

研究教育內容創作

peer-review

結構化手稿與經費審查助手，提供基於檢查清單的評估，涵蓋方法論、統計效度及報告標準（如 CONSORT/STROBE）合規性檢核。

瀏覽: 27★ 19,688

研究教育生產力

scholar-evaluation

使用 ScholarEval 框架系統性地評估學術研究工作，針對研究品質維度提供結構化的定量與定性分析，並提供具備執行力的反饋建議。

瀏覽: 8★ 19,706

工程開發資料分析自動化

trulens-evaluation-workflow

使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程，支援 LangChain、LangGraph 與 LlamaIndex 等框架。

瀏覽: 11★ 3,286#trulens#llm#evaluation#workflow

研究內容創作工程開發

ai-writing-detection

全面的 AI 文本檢測框架。透過詞彙分析、結構模式、模型指紋與技術後設資料比對，精準辨識 AI 生成內容與寫作痕跡。

瀏覽: 12★ 1,108

工程開發生產力

context-compression

透過先進的上下文壓縮、結構化摘要與任務導向的狀態管理，為長期運行的 AI 代理會話優化效能並降低 Token 使用量。

工程開發研究

evaluating-code-models

使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試，並提供多語言編碼模型的 pass@k 指標評估。

瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP

生產力工程開發資料分析內容創作研究

ai-multimodal

使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成，具備超長上下文窗口，適用於複雜的多模態 AI 任務。

瀏覽: 14★ 9