工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 341 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
AI 輔助代碼代理版本控制。透過 MemoV 自動追蹤提示詞、上下文與差異,確保完整可追溯性,且不污染 Git 歷史紀錄。
架構與優化生產級別的 RAG 系統。精通嵌入模型、向量資料庫、分塊策略及檢索管線,提升 LLM 應用的精確度。
透過捕捉瀏覽器流量 (HAR 檔案) 進行網路 API 逆向工程,並自動產生可用於自動化與資料擷取的 Python API 客戶端。
中文日常實用工具集:天氣預報、匯率查詢、新聞摘要與快遞追蹤。無需配置,開箱即用。
完整的 API 自動化測試解決方案,支援 REST/GraphQL。提供功能測試、效能測試、合約測試與 Mock 服務整合。
基於代碼庫分析自動生成專案文檔,確保準確性、一致性並符合 VilnaCRM 架構模式。
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
透過 llms.txt、MCP 搜尋與智慧解析策略,有效率地讀取並導航外部技術文件。
結構化、模板驅動的端到端功能開發工作流,包含編碼、自動化測試、驗證及基於會話的持續改進。
Google Gemini 影像生成 API 介面,支援文字轉影像、影像編輯、風格模板與自動重試工作流程。
為 OpenClaw 管理 OpenRouter 免費 AI 模型。自動根據品質排序模型、配置速率限制的後備方案,並更新 openclaw.json 設定。