evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 158 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
提取並記錄真實的寫作語氣。為 AI 訓練、代筆寫作及品牌一致性建立詳盡的語氣指南。
獲取全球城市的天氣狀況、溫度、降雨預報及行程規劃資訊,協助您掌握即時氣候資訊。
Claude Messages API 專家指南:涵蓋結構化輸出、提示詞快取、工具使用,以及從 Claude 3.x 遷移至 4.5 的關鍵資訊,協助開發者解決常見 API 錯誤與效能問題。
使用 Google Gemini API 進行深度影片分析:包含影片摘要、音訊轉錄、時間戳記提取、影片片段剪輯,並支援 YouTube 連結或本機檔案,適用於多種模型與長文本脈絡。
透過預注入驗證強化 RAG 系統的認知品質,確保文檔在進入知識庫前皆經過嚴格定義與結構化校對。
智慧型 Apple Mail 收件匣掃描工具,可自動分析並分類未讀、待辦與優先級郵件。
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
自動化文案轉圖片引擎,專為社群媒體貼文、文章封面與長圖設計。支援 X 風格、微信公眾號與海報模板,提供精準文字排版與高亮標註功能。
專為 Flask、Django 與 FastAPI 專案設計的 Python 安全掃描工具。支援 OWASP Top 10 風險檢測、相依套件弱點分析、硬編碼密鑰偵測與框架專屬安全審計。
分析會議逐字稿以揭示溝通模式、行為洞察及領導力回饋。識別衝突迴避、贅詞使用、發言比例及主動傾聽,協助您提升專業表達與影響力。
簡化技術文檔編寫,協助生成、更新與完善 README 檔案。針對開源專案貢獻者、內部團隊及個人專案提供客製化的內容與模板建議。