evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 210 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
分析並識別代碼庫模式(命名、架構、測試),以確保開發過程中的一致性與標準執行。
透過 llms.txt、MCP 搜尋與智慧解析策略,有效率地讀取並導航外部技術文件。
一個自主 AI 代理迴圈,可重複執行 Claude Code,根據結構化產品需求文件 (PRD) 自動完成功能開發。
使用 OpenAI ChatKit React 組件實現生產就緒的 AI 聊天介面。功能包含 hook 配置、流式傳輸、主題自定義、對話歷史與 Next.js 應用程式的自定義工具整合。
生成個人化且經過驗證的每日新聞簡報,針對您的興趣、專案與競爭對手進行分析,並嚴格執行 7 天內新聞時效要求。
中文日常實用工具集:天氣預報、匯率查詢、新聞摘要與快遞追蹤。無需配置,開箱即用。
提取並記錄真實的寫作語氣。為 AI 訓練、代筆寫作及品牌一致性建立詳盡的語氣指南。
為構建 Claude API 生產級應用提供專家指導,涵蓋 SDK 使用、提示詞緩存、批量處理、串流傳輸、工具調用及成本優化策略。
為 Claude Code 設計的蜂巢思維多代理協作系統,具備女王式架構、拜占庭共識機制、持續性集體記憶與自適應任務分配,適用於複雜軟體開發。
使用 Stable Baselines3 進行生產級強化學習。透過類 scikit-learn API 訓練智能體、設計自定義環境、實作訓練回調函數並優化工作流程。
先進的上下文工程系統,用於協調 AI 代理、記憶體管理和 Token 優化,以提升長期持久性和專案智慧。