evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 131 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
為 LangChain 應用程式提供統一介面,整合並管理 OpenAI、Anthropic、Google、Azure 與 Bedrock 等 LLM 聊天模型服務。
使用 Qwen ASR 模型將音訊檔案 (wav, mp3, ogg) 轉錄為文字。快速、易於本地部署且無需 API 金鑰。
一個 AI 驅動的技能,可針對複雜的程式設計任務,自動從 RAG 知識庫中檢索相關的專案上下文。
代理角色偵探技能標準化集成。將代理映射至代碼分析技能,並強制執行 claudemem 以實現索引內存代碼調查。
從 DeepEar Lite 平台獲取即時金融訊號、傳導鏈推理及市場信心指標,協助 AI 代理進行深度市場分析。
管理、搜尋並從本地論文資料庫中提取技術見解。適合開發者實作學術研究、驗證程式碼與數學邏輯,以及為 AI 程式代理人提供科學論文背景資料。
掌握 LangGraph 多智能體編排。使用監管者-工作者模式、條件路由與狀態管理,構建具備容錯能力的複雜 AI 工作流。
使用 LangChain 1.x 與 LangGraph 架構生產級 LLM 應用程式。實現狀態化 AI 代理、多步驟工作流程,並為複雜的對話與自動化任務建構自訂記憶系統。
使用真實 Chrome 瀏覽器進行 JavaScript 渲染的進階 Google 搜尋。適用於抓取完整網頁內容、指定網站搜尋及時間篩選結果。
統一的 AI 閘道,支援超過 100 種大語言模型,提供相容 OpenAI 的 API、模型備援、負載平衡及企業級管理工具。
構建企業級 AI 代理系統,支援 LangGraph、Anthropic/OpenAI/vLLM 與結構化輸出。具備串流傳輸、A2A 協定、Pydantic 驗證、向量記憶體與防幻覺機制,適用於複雜的多代理協作工作流。