工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 24★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 459 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
為 AI 開發代理設計的嚴謹程式碼審查接收機制,強調技術驗證與實際檢查,避免盲目同意。
審核 Packmind 文件,將 MDX 檔案與程式碼庫交叉比對,以偵測無效連結、過時的 CLI 參考及文件缺漏。
一套系統化的程式碼審計框架,用於識別軟體專案中的技術債、安全漏洞、無效程式碼及程式碼品質問題。
Sindri 宣告式 YAML 擴充功能開發指南,包含專案初始化、認證、生命週期勾子及 MCP 整合等功能開發說明。
從沙盒環境遠端控制無頭瀏覽器,進行自動化網頁瀏覽、資料擷取、表單互動及測試工作。
搜尋並參考 Chromium 文件,包含設計文件、API 與開發指南。適用於定位、瀏覽或學習 Chromium 程式碼庫中的架構、GPU、網路、安全性與測試概念。
診斷 GitHub Actions CI 失敗,自動獲取日誌、總結錯誤並規劃修復方案。
一套標準化工作流程,用於將原始 PM 筆記、工作坊內容或初稿轉化為經過驗證且符合儲存庫規範的 AI 技能。
一套將實驗性機器學習原型轉換為穩健、可發佈的 Python 套件之框架,採用 src 配置、混合架構與嚴謹的設定管理。
為複雜軟體專案建立強健、可擴展且易於維護的技術實作計畫。
為模式開發提供的標準化 Git 工作流程,包含變基策略、拉取請求建立以及上游同步,用於協作社群儲存庫管理。