evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 393 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
將軟體開發想法捕捉並形式化為 Hashbrown 存儲庫中的結構化設計文檔,包含研究資料與概念草圖。
生成符合 Cloudscape Design System 的 React + TypeScript UI 程式碼,包含輔助功能、響應式佈局及完善的狀態處理。
將 Markdown 格式的產品需求文件 (PRD) 轉換為 Ralph 自主 AI 代理系統所需的 prd.json 結構,以實現可重複且具備上下文意識的軟體開發。
使用 Cloudflare Workers AI flux-1-schnell 模型生成影像。直接在您的工作流程中啟用文字生成圖片功能。
管理長時間運行的 PapersFlow DeepScan 研究流程,提供異步監控、即時進度追蹤與自動化報告生成功能。
一個用於 Claude Code 技能的智慧生成器,可自動化建立結構化提示詞、YAML 元數據以及支援性檔案架構。
透過 gh CLI 與 GitHub 互動,以管理議題、合併請求、工作流程執行,並執行進階 API 查詢。
以英國皇家海軍中隊為隱喻的軟體開發多代理協調系統,具備任務規劃、並行任務協調與嚴謹的稽核日誌功能。
透過先進的上下文壓縮、結構化摘要與任務導向的狀態管理,為長期運行的 AI 代理會話優化效能並降低 Token 使用量。
根據最新文獻驗證研究想法的新穎性。適用於用戶詢問「查新」、「有沒有人做過」或需要確認方法原創性時。
建構無代碼 MCP 伺服器,透過 YAML 以有向圖形式編排工具,實現資料轉換、條件路由與自動化工作流。