evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 489 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
SPARC 開發方法論,結合 Claude Flow 多代理協作,實現從規格、虛擬碼、架構到重構與完成的系統化軟體工程。
基於 Notion 的推文效能追蹤系統,透過強化學習原理實現數據驅動的內容實驗與優化。
使用 React、Vite、TypeScript、Tailwind 和 shadcn/ui 構建、審核並迭代高轉化率著陸頁。專注於轉換率優化 (CRO)、首屏結構以及使用 Iconify 圖標的高品質介面設計。
提供識別、審查與管理由 GitHub Copilot 編碼代理在儲存庫中建立之提取請求 (PR) 的操作指南與技巧。
AI 代理的即時技能發現引擎。透過 REST API 或 MCP 按需搜尋並檢索專業代理技能 (SKILL.md),將程序性知識即時注入到代理的上下文中。
建立高轉化率的銷售、產品發布與潛在客戶培養郵件序列。根據您的業務風格、受眾與行銷目標,自動生成專業的電子郵件行銷活動。
Lovable 風格 AI 開發工作流程控制器。透過調度專門的子代理,即時生成優質、多頁面且具備動畫效果的應用程式。無需冗長提示,直接啟動開發。
自動化 MassGen 發布準備流程,包括生成 CHANGELOG 條目、草擬發布公告以及在 git 標記前驗證文檔完整性。
為文件、技術規格與提案提供結構化的共同創作工作流程,引導使用者進行背景資訊匯集、協作式修訂與讀者檢核。
為 AI 代理設計的自動化記憶管理中間件,透過「查-回-存」閉環實現跨對話的長期記憶維持與上下文自動管理。
透過提供領域特定權杖、魔術位元組與協定關鍵字,引導模糊測試器深入挖掘程式碼路徑,提升測試效率。