evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 192 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
為 AI 代理設計的自動化記憶管理中間件,透過「查-回-存」閉環實現跨對話的長期記憶維持與上下文自動管理。
一個用於查詢、解析並將 SEC EDGAR 申報文件、財務報表及機構持股數據轉化為結構化 Python 物件的完整程式庫。
一套全面的警句與名言管理系統,用於主題內容豐富化、研究與電子報策劃。
Fabric CLI 智慧模式選擇工具,從 242+ 種專業提示中自動選取最合適的模式,支援威脅建模、資料分析、摘要與內容創作。
SEO 優化內容大綱模板與創作方法論,適用於內容寫作者與行銷規劃。
使用 curl 從公開分享的 Google 文件中可靠地讀取並提取內容,確保獲取完整文件。
基於 DuckDB 的持久化狀態管理與工作流程分析工具,支援任務依賴追蹤、歷史指標與上下文檢查點功能。
使用 markitdown 將各種文件、媒體和網頁內容轉換為 Markdown,非常適合大型語言模型處理和文字分析。
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
為 Python 代碼提供 6 階段唯讀分析的工作流程,根據專案類型(從 POC 到開源)檢測設計原則違規、程式碼異味並建議現代化改善方案。
從 DeepEar Lite 平台獲取即時金融訊號、傳導鏈推理及市場信心指標,協助 AI 代理進行深度市場分析。