工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 277 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
將偵錯數據、日誌和視覺化輸出發送到 Ray 桌面應用程式,以便進行即時開發回饋。
為提示詞中的 JSON 數據提供認知安全分析,防止大型語言模型在處理不完整或大規模數據集時產生幻覺與推理錯誤。
使用 Chrome DevTools MCP 和 AI 視覺模型進行 UI 測試、設計一致性驗證及瀏覽器除錯。
透過 CLI 管理 Higress AI Gateway 的自動模型路由。根據請求內容設定觸發規則,實現智慧模型選擇。
執行網路協定逆向工程,包含封包擷取、流量分析、協定解析及自訂格式文件化。
為 Istio 和 Linkerd 服務網格實作生產級可觀測性,包含分佈式追蹤、指標儀表板及黃金信號監控。
Refly 生態系統基礎技能。用於建立、探索及執行特定領域技能,透過符號連結路由使用者意圖至工作流程,並透過 Refly CLI 自動化執行多步驟任務。
自動化執行 GDPR、CCPA、HIPAA、SOC2 及 PCI-DSS 等法規遵循測試,確保法律合規性、準備審計並保護敏感數據。
透過 SSE 協定直接連接 RagCode MCP,無需繁瑣的設定檔或二進位檔案依賴。
針對 Go CLI 應用程式的專家級自動化程式碼審查,涵蓋 Cobra/urfave 模式、安全性、效能、Go 慣用語法及完善的錯誤處理。
管理 BAZINGA-DB 核心引擎的資料庫協調會話、狀態快照及系統級操作。