evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 504 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
執行全面的交易可比性分析,利用同業乘數、營運關鍵指標與估值建模,評估公司相對價值。
Lovable 風格 AI 開發工作流程控制器。透過調度專門的子代理,即時生成優質、多頁面且具備動畫效果的應用程式。無需冗長提示,直接啟動開發。
透過 PubMed、arXiv 和 Semantic Scholar 進行系統性文獻回顧,包含人工智慧驅動的綜述、核實引用以及強制性的科學圖表生成。
使用 Chrome DevTools MCP 和 AI 視覺模型進行 UI 測試、設計一致性驗證及瀏覽器除錯。
實作生產級 AI 代理。包含 LangGraph、工具調用護欄、SSE 串流、情節記憶與 pgvector。提供反模式分析與修正代碼。
引導新使用者進行 CISO Assistant 的初始設置,包括組織結構建立、框架選擇以及透過 MCP 工具配置風險評估。
從實驗數據生成學術論文級別的出版品質圖表與 LaTeX 表格。
Gemini AI 指令列介面,支援單次 Prompt 執行、內容生成,以及為 OpenClaw 使用者提供 JSON 格式的資料提取功能。
Sage MCP 協議實現,用於整合外部工具伺服器與標準化 AI 模型上下文。
一套完整的 Claude Code 設定工具組,包含經實戰驗證的代理程式、技能、鉤子與軟體開發自動化工作流程。
為初創企業構建 3-5 年財務模型,涵蓋收入預測、成本結構、現金流分析及情境規劃,支持募資與營運決策。