evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 527 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
為英文文本提供精確、簡潔的修改建議與文法潤飾,且不對原文進行全面重寫。
Epsimo AI 平台開發套件與 CLI,支援建立具有持久化狀態、虛擬資料庫、串流對話及 React UI 套件的智慧代理。
為任何網頁應用程式建立並測試 AI 就緒的 MCP 工具。透過程式碼注入與自動化瀏覽器互動,將網站轉化為智慧代理程式。
為 AI 代理提供主動式上下文視窗管理,透過智慧令牌監控、快照建立與選擇性狀態恢復,確保長會話期間的連續性。
自動化依賴項安全性審核工具。掃描 package.json、requirements.txt 等檔案中的漏洞、CVE 和授權問題,並提供修復建議,以確保部署流程的安全性。
使用 FastMCP 框架建構與管理 MCP 伺服器。提供工具開發、資源配置、Prompt 設計、Claude Desktop 整合及 Python/TypeScript 部署指南。
自動化維護 CLAUDE.md 文件。監控代碼庫變化,確保專案記憶庫與檔案結構、建構指令及開發模式保持同步。
在 Rails 應用中實現完整的模型上下文協議 (MCP)。支援連接外部 MCP 伺服器、將 Rails 應用程式暴露為 MCP 伺服器、透過 Docker 管理子進程,以及 OAuth 2.1 PKCE 驗證。
協助您設定、規劃與建構 gitagent 專案的工具,包含 agent.yaml、SOUL.md、RULES.md 配置與目錄架構管理。
專為全域管理員設計的 Microsoft 365 租戶管理技能,涵蓋初始設定、使用者生命週期、安全策略配置、合規性與自動化 PowerShell 腳本生成。
透過價值、易用性、可行性與營運可行性四個維度,利用多角度批判性思維對現有產品功能進行風險假設評估與壓力測試。