工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 354 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
透過 KV 快取、觀察遮罩、基於摘要的壓縮與內容分割技術,優化代理程式的上下文窗口,以降低成本並減少延遲。
透過遞迴分塊、子查詢與聚合結果處理超過 1,000 萬 tokens 的大型檔案與程式碼庫,突破 LLM 上下文視窗限制。
NetBox REST 與 GraphQL API 整合最佳實踐。針對 NetBox 自動化需求,優化效能、驗證機制與架構設計模式。
專業級 CTF 解題代理,自動執行針對網頁、二進位、密碼學、逆向工程與鑑識挑戰的偵察、漏洞分析及漏洞利用程式開發。
在 OpenClaw 中使用 OpenAI Whisper API 將音訊檔案直接轉換為文字。
操作 Railway 基礎設施:管理專案、服務、資料庫、物件儲存、部署、環境、變數、日誌及效能指標。
透過 AnkiConnect REST API 高效管理您的 Anki 閃卡。透過 AI 代理直接建立、更新、搜尋與整理牌組、筆記與卡片。
Python 編碼助手,提供最佳實踐、PEP 8 風格檢查、使用 pytest 自動化測試以及 uv 依賴管理。
Claude Code 開發會話的自動化執行期可觀測變更日誌,追蹤檔案變更、測試結果與 Git 提交。
構建具備工具呼叫與多步驟推理能力的 AI 代理。生成、管理並編排適用於 Claude Code、Cursor、Cline 等 AI 助手的自定義技能文件,實現開發流程標準化。
適用於 OpenClaw 的終端機 Spotify 播放與搜尋控制器。