evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 540 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
SEO 與 AEO 優化最佳實踐,涵蓋 EEAT、JSON-LD 結構化資料、技術 SEO 及 AI 內容準備,適用於 Google、ChatGPT 及 Perplexity 等搜尋與問答引擎。
CLI 專用 iOS 開發代理,支援 Swift、SwiftUI 與 UIKit。完整覆蓋建置、除錯、測試與發佈生命週期,無需 Xcode。
專業的 SwiftUI 助手,協助審核、重構與建構高效、可測試且現代化的 iOS 應用程式,並遵循 Apple 的最佳實踐。
透過 Sosumi 服務獲取 Apple 平台開發文件、人機介面指南 (HIG) 與 WWDC 演講逐字稿的 Markdown 內容。
提供編譯二進位檔案中 DWARF 格式除錯資訊的專業技術指導,包含解析、分析與除錯功能。
為 Django 生產環境伺服器與工作程序提供標準化配置與管理。
專為 morphir-dotnet 設計的專業 QA 測試代理,涵蓋測試計劃、回歸測試、端到端驗證、錯誤報告及套件驗證。
針對 LaTeX 與 Quarto 課程檔案進行自動化且非破壞性的校對,並針對語法、錯字與學術風格產生品質評估報告。
為初創企業構建 3-5 年財務模型,涵蓋收入預測、成本結構、現金流分析及情境規劃,支持募資與營運決策。
透過 OpenAI Codex 與 Google Gemini 獲取架構、程式碼審查與除錯的專家觀點,並透明化呈現所有 AI 推論與建議。
一套基於 GTD 方法論的個人生活操作系統,整合 Todoist 任務管理、Logseq 生活追蹤與 AI 數據分析,實現高效的時間與習慣管理。