evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 473 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
vibe-coding 工作流程的最終執行代理。根據 AGENTS.md 主計劃逐步構建 MVP,管理會話連續性,並通過測試驗證每個功能。
全面的生物訊號處理工具包,用於分析心電圖、腦電圖、皮膚電活動等訊號,支援心理生理學研究及多模態整合。
搜尋、分析並稽核 GeminiClaw 工作階段紀錄與記憶。用於調查過往對話、追蹤 Token 使用量、除錯工具呼叫及監控代理程式效能。
為所有軟體開發任務提供強制性的執行驗證。在確認結果前,透過實際運行來確保代碼功能正確。
為 Claude 提供的專業級試算表自動化工具:建立、編輯、分析與視覺化 Excel 和 CSV 檔案,嚴格遵守公式完整性與財務格式標準。
透過 7 步驟編輯框架系統性地優化行銷文案,提升清晰度、語氣與轉化率。
FFmpeg 生產級自動化工具,用於影片與音訊處理,包含剪輯、合併、格式轉換、編碼器優化及濾鏡應用。
AI 驅動的 GitHub Actions 自動化,具備群體智慧工作流編排、智慧 CI/CD 管線管理及自主儲存庫維護功能。
一種結構化的決策工具,應用 RICE、MoSCoW、Kano 和價值與努力等框架,透過數據驅動的客觀性來確定軟體功能、產品藍圖項目以及開發與否的決策優先級。
自動化 GitHub 發佈流程,根據傳統提交訊息產生格式化的更新日誌,並自動處理版本號更新。
將內容屬性與 GA4 和 GSC 指標進行關聯分析,以識別績效驅動因素並挖掘優化機會。