工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 194 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
一種專案特定的技能模板,用於維護 AI 驅動全端應用程式中的架構一致性、編碼標準與部署流程。
使用 OpenAI Agents SDK (Python) 構建 AI 代理。支援多代理協作、函數工具、狀態化對話、串流傳輸以及透過 LiteLLM 進行 Azure OpenAI 集成。
建立與管理生產級 Grafana 儀表板,用於系統可觀測性、即時指標視覺化與監控。
安全地執行、測試並驗證文件中的命令,支援真實輸出擷取、效能追蹤與 Git 安全協定。
使用 PyMC 進行貝葉斯建模與機率編程。構建分層模型,執行 MCMC 採樣 (NUTS) 與變分推斷,並透過 LOO/WAIC 進行嚴謹的模型比較與後驗檢查。
加速在 Lovable 上進行臨床與醫療應用開發。專為 OpenClaw 臨床黑客松參與者設計,提供臨床 MVP 開發與安全合規實踐。
為 Julia 代理系統設計與實作高品質工具架構與描述的專家指引,確保工具執行可靠性並減少模型幻覺。
運用 PACT(主動、自主、協作、目標導向)原則的整體測試模型,為現代軟體系統構建品質文化與測試策略。
以英國皇家海軍中隊為隱喻的軟體開發多代理協調系統,具備任務規劃、並行任務協調與嚴謹的稽核日誌功能。
透過 ReasoningBank 實現代理程式的自適應學習,進行模式識別、策略優化與持續改進。
用於管理、建置及部署 Agent Skills 的命令列工具,支援將技能打包為 OCI 成品並在生態系統中共享。