evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 94 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
使用 AI AutoGLM Phone Agent 自動化 Android 裝置操作。透過自然語言指令控制手機介面,適用於 APP 自動化測試、數據採集與 UI 互動,支援點擊、滑動、輸入與螢幕截圖。
標準化 Markdown 內容,包含主動語態、精確的標題層級以及符合 WCAG AA 無障礙標準,適用於文件、網站及儲存庫檔案。
專業級 CTF 解題代理,自動執行針對網頁、二進位、密碼學、逆向工程與鑑識挑戰的偵察、漏洞分析及漏洞利用程式開發。
獲取並解析飛書雲文檔為 Markdown,支援媒體內容處理與知識庫連結解析。
透過 WaveSpeed AI 使用 Google Nano Banana 2 模型進行圖像生成與編輯。支援文生圖、自然語言修圖、多圖合成、4K 解析度及多種比例。
macOS 視覺自動化工具,提供精確視窗截圖、錄影、UI 標註、Excalidraw 線框圖生成及自動化視覺回歸測試。
使用 Chrome 無頭模式自動為 MicroSim 視覺化產生高品質截圖。適用於文件製作、社群媒體預覽及品質評估。
對登陸頁面進行結構化的 8 要素轉化率優化 (CRO) 審計,識別轉化阻礙並提供增長建議。
Civitai 綜合審核工具組,提供用戶管理、違規計點系統、圖片審核、內容監管及 CSAM 舉報功能,透過 tRPC API 執行自動化操作。
運用系統化設計原則、AI 評估與自動化靈感分析,打造美觀的用戶介面。
進階視覺回歸測試工具,具備像素級與AI輔助差異分析、跨瀏覽器驗證及響應式設計檢查,有效防止CI/CD流程中的UI回歸問題。