evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 460 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
自動化管理臨時 Neon PostgreSQL 資料庫的生命週期,適用於測試、CI/CD 與快速原型開發。
連接 Notion API 以建立、管理與查詢頁面、資料庫及區塊,為您的 AI 知識管理提供支援。
產生 0 到 9999 之間的隨機幸運數字,適用於遊戲、決策或娛樂需求。
透過遞迴分塊、子查詢與聚合結果處理超過 1,000 萬 tokens 的大型檔案與程式碼庫,突破 LLM 上下文視窗限制。
設計衝刺與產品策略的問題框架工具。支援個人或團隊協作,協助在進入解決方案開發前,系統化地定義目標、利害關係人、限制條件與痛點。
管理 AWS Lambda 無伺服器函式:部署程式碼、配置事件觸發器、除錯呼叫、優化冷啟動,並維護層(Layers)。
建構無代碼 MCP 伺服器,透過 YAML 以有向圖形式編排工具,實現資料轉換、條件路由與自動化工作流。
MERIDIAN 自主 AI 代理實作模式,包含 BaseAgent 生命週期、Claude API 結構化工具呼叫、Token 配額管理與 cron 排程系統。
透過 Redis 快取、叢集運算、效能剖析與監控技術,優化 Node.js 應用程式效能,打造高效且可擴展的後端服務。
執行全面的程式碼審查,專注於安全性漏洞、效能優化、可維護性及程式碼正確性。
支援 Claude、GPT、Gemini 與 Ollama 的多模型 LLM 整合方案。包含 API 對接、提示工程、Token 管理及模型中立的編排架構。