evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 138 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
透過成熟的提示工程原則,將模糊或結構不良的指令轉換為優化且高效的 AI 模型提示,提升執行品質與準確性。
使用 CasADi 和 IPOPT 的非線性優化工具組。適用於建立複雜的 NLP 模型、定義符號變數、約束條件與求解器,並提供電力系統優化模式的專業支援。
使用 PyMC 進行貝葉斯建模與機率編程。構建分層模型,執行 MCMC 採樣 (NUTS) 與變分推斷,並透過 LOO/WAIC 進行嚴謹的模型比較與後驗檢查。
影片內容全鏈路處理管線,將原始錄影自動轉化為逐字稿、觀點摘要、短影片切片及完整文章。
應用認知科學框架於計算機科學與人工智慧研究,透過系統化的創造力策略生成具備原創性的研究方向。
使用 MCP 工具獲取最新的技術資訊,針對函式庫、API、SDK 及技術生態系統提供經過驗證的指導。
使用智譜 (Zhipu) AI 網頁搜尋 API 進行網際網路搜尋,快速獲取即時資訊、新聞與最新數據。
基於 Apple Silicon 與 MLX 的本地機器學習推論服務,整合語音識別 (ASR)、語音合成 (TTS)、翻譯、圖像生成與視覺識別功能。
透過 MCP 將您的 AI 代理連接至 Hugging Face Hub。搜尋模型、資料集與論文,管理儲存庫,執行雲端運算任務,並將 Gradio Spaces 作為 AI 工具呼叫使用。
使用 AgentDB 的超快速向量後端實作 ReasoningBank 自適應學習。具備軌跡追蹤、判斷評估、記憶蒸餾與模式識別功能,適用於構建自我學習的自主智能體。
先進的上下文工程系統,用於協調 AI 代理、記憶體管理和 Token 優化,以提升長期持久性和專案智慧。