evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 496 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
面向 AI 代理的參數化 CAD 工具。透過 MCP 工具以程式化方式建立 3D 模型與機械零件,支援布林運算、陣列與多格式匯出 (STL, GLB, STEP)。
透過 MCP 將您的 AI 代理連接至 Hugging Face Hub。搜尋模型、資料集與論文,管理儲存庫,執行雲端運算任務,並將 Gradio Spaces 作為 AI 工具呼叫使用。
自動化 GitHub Issue 分析、分類與解決方案規劃工具,完全整合規格驅動開發 (SDD) 工作流程。
發現並安裝代理技能以擴展 DeerFlow 功能。使用此技能搜尋適用於編碼、測試、部署等任務的工具、工作流程或專業知識。
根據關鍵字、主題或情境生成高品質的日語諧音梗(dajare)。內建押韻分析與情境幽默生成功能。
分析與除錯 fast-agent 會話記錄、工具執行日誌與對話時序,以解決效能瓶頸、工具迴圈以及非預期的會話終止問題。
透過管理 conductor/ 目錄中的專案環境工件(產品、技術棧、工作流程、追蹤)來標準化開發環境。支援專案鷹架建立、工件同步以及針對全新與既有專案的 AI 對齊。
維護並更新 MassGen 模型註冊表,包含後端能力、模型元數據、定價結構以及新舊 AI 模型的上下文窗口配置。
搜尋並參考 Chromium 文件,包含設計文件、API 與開發指南。適用於定位、瀏覽或學習 Chromium 程式碼庫中的架構、GPU、網路、安全性與測試概念。
針對 Go CLI 應用程式的專家級自動化程式碼審查,涵蓋 Cobra/urfave 模式、安全性、效能、Go 慣用語法及完善的錯誤處理。
透過引入程式碼變異並測量殺死率,驗證測試套件的有效性並找出薄弱斷言。對於證明測試能真正捕捉錯誤,而非僅僅滿足覆蓋率指標至關重要。