工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 139 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
為技術架構、複雜重構與結構化除錯提供多視角 AI 諮詢服務。
開發週期 Gate 2 技能,用於驗證可觀測性實作,包含結構化日誌、OpenTelemetry 追蹤及儀表覆蓋率,且不修改程式碼。
為 AI 代理實作自動化的關鍵自我驗證層,在完成任務前確保程式碼品質、安全性及需求一致性。
將 Markdown 格式的產品需求文件 (PRD) 轉換為 Ralph 自主 AI 代理系統所需的 prd.json 結構,以實現可重複且具備上下文意識的軟體開發。
根據 Hyperlane 文件標準審查文件變更,確保內容符合架構模式與規範。
針對 Go CLI 應用程式的專家級自動化程式碼審查,涵蓋 Cobra/urfave 模式、安全性、效能、Go 慣用語法及完善的錯誤處理。
透過平行代理執行分析專案結構、相依套件與程式碼模式,為快速上手陌生程式庫與 AI 輔助開發產生詳細的專案背景文件。
在獨立會話中執行實作計畫並進行審核檢查點,確保逐項任務驗證與代碼品質。
STYLY-NetSync 自動代碼審查,執行協議一致性、線程安全及 Unity C#/Python 編碼規範。
根據 Figma 或設計稿實作 UI 組件,提供像素級精確度、智慧設計驗證與自適應代理切換功能。
節省 token 的程式碼分析技能,支援呼叫圖、語義搜尋、影響分析與資料流追蹤。相比原始程式碼讀取節省約 95% token。