工程開發研究
evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
瀏覽: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 172 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
透過分析可用技能、制定結構化執行計畫並管理手動或委派的多步驟工作流程,來統籌複雜的程式設計任務。
產生與 IntelliJ coding-aider 外掛程式相容的結構化開發計畫、檢查清單及檔案上下文。
探索並分析 GitHub 熱門專案,評估專案活躍度、技術棧與文件品質,快速獲取開源生態趨勢報告。
為股票和 ETF 進行全面的技術分析,使用 RSI、MACD 和布林通道等指標生成可操作的交易訊號與比較報告。
Multigres 專案開發工具:自動化執行單元測試、整合測試以及環境協調,適用於 Vitess-for-Postgres。
積極精簡輸入內容中的語法結構與冗餘文字,在保留核心語義的同時優化 LLM 的 Token 使用效率。
AI 代理的執行前安全防護機制。針對 Shell 指令和檔案讀取執行 400 多種安全模式驗證,攔截具破壞性的操作、憑證竊取與未授權的系統存取。
用於在 Claude Code 和 Gemini CLI 擴展之間轉換及同步 AI 代理技能的通用 CLI 工具。
Claude Code 高級開發指南,涵蓋 REPL 環境、MCP 整合、開發工作流及 AI 輔助編程最佳實踐,助力提升開發效率。
AI 程式代理的共享記憶與協作層,用於追蹤操作、管理工作階段、偵測衝突,並跨工具保留專案上下文。
根據研究敘述、實驗數據與審稿結論,自動生成結構化的學術論文大綱。