工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 398 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索並分析 GitHub 熱門專案,評估專案活躍度、技術棧與文件品質,快速獲取開源生態趨勢報告。
為技術架構、複雜重構與結構化除錯提供多視角 AI 諮詢服務。
MoAI-ADK 基礎架構原則,包含 TRUST 5、SPEC-First TDD、委派模式以及節省 Token 的代理人協作工作流程。
精通 React Native 樣式、導航與 Reanimated 動畫。構建高性能、跨平台的原生體驗行動應用程式。
Claude Code 的自主多代理協調框架,具備記憶驅動工作流程、優先並行執行、基於亞里斯多德原則的拆解與多階段品質把關。
引導式功能開發代理,透過系統化的探索、架構設計、程式碼實作與自動化測試來完成開發任務。
設計並實作微互動、動態設計與轉場效果。用於提升 UI 精緻度、實現載入狀態,並創造直觀、令人愉悅的用戶反饋體驗。
執行基於 Gradle 的 Java 測試,過濾失敗結果與關鍵統計數據,並提供精簡報告以簡化後端開發與除錯。
實作生產級 AI 代理。包含 LangGraph、工具調用護欄、SSE 串流、情節記憶與 pgvector。提供反模式分析與修正代碼。
掌握 REST 與 GraphQL API 設計原則,構建直觀、可擴展且易於維護,並令開發者滿意的 API。
透過結構化的自我評估檢查點,確保 AI 在任務執行前、中、後的方案驗證與風險控管,提升程式開發品質。