工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 526 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
使用 Axum、SQLx 和 thiserror 實作強健的 Rust 後端服務,並運用生產級架構模式。
讀取、寫入與管理飛書 (Lark) 雲端文件。支援 Markdown、區塊操作、表格建立及多媒體附件上傳。
一個統一的文件處理閘道,支援 PDF 解析、文字提取、格式轉換與跨多種本地及雲端供應商的文件操作。
將教學內容(如逐字稿、教程)轉化為可執行的「Ship-Learn-Next」循環,建立具體的實作計畫與學習任務。
一套嚴格的四階段方法論,強制要求在應用任何程式碼修復前,必須先進行系統性的根本原因分析。
自動產生 llms.txt 與 llms-full.txt 檔案,為專案文件提供人工智慧友善的閱讀格式與專案上下文。
Claude Code 開發會話的自動化執行期可觀測變更日誌,追蹤檔案變更、測試結果與 Git 提交。
一種專案特定的技能模板,用於維護 AI 驅動全端應用程式中的架構一致性、編碼標準與部署流程。
為技術架構、複雜重構與結構化除錯提供多視角 AI 諮詢服務。
執行全面的程式碼審查,專注於安全性漏洞、效能優化、可維護性及程式碼正確性。
階層式目標追蹤系統,將三年願景連結至每日任務。自動化計算進度、偵測停滯目標,並整合 Obsidian 庫中的專案與目標對齊。