evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 493 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
進階 AI 代理工作流編排,支援多模型路由、Codex 沙盒迭代、平行 swarm 執行及複雜管線中的持久化記憶體功能。
從研究報告到成品 PDF 的全自動論文寫作流水線。
階層式目標追蹤系統,將三年願景連結至每日任務。自動化計算進度、偵測停滯目標,並整合 Obsidian 庫中的專案與目標對齊。
使用自動化子代理程式抓取並彙整最新的 Posit 新聞、部落格文章、Podcast、影片內容與活動公告。
全球情報自動匯總工具,生成市場、政經與 AI 新聞報告。支援 RSS 聚合、重大事件告警與結構化情報推演,協助用戶高效追蹤全球動態。
為 Turso 資料庫執行嚴格的程式碼品質、正確性及 Rust 設計模式,優先考慮資料完整性、效能以及易於維護的慣用語法。
初始化開發會話,包含環境健康檢查、任務狀態同步,以及為 Claude Code 恢復上下文記憶。
支援 Claude、GPT、Gemini 與 Ollama 的多模型 LLM 整合方案。包含 API 對接、提示工程、Token 管理及模型中立的編排架構。
管理、搜尋並從本地論文資料庫中提取技術見解。適合開發者實作學術研究、驗證程式碼與數學邏輯,以及為 AI 程式代理人提供科學論文背景資料。
Helm Chart 開發與部署的快速參考工具,提供 Kubernetes 模板語法與自動化部署建議。
使用精選的高品質來源建立新聞、技術趨勢和研究論文摘要。適用於每日新聞摘要、主題追蹤與過濾資訊噪音。