evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 640 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
通用 SSH 遠端伺服器管理工具。直接在 Claude 會話中執行指令、管理 Docker 容器、查看日誌並進行伺服器維護。
SolidStart 伺服器執行階段專業指南,涵蓋請求事件、中介軟體、伺服器函式與 API 架構設計。
使用 Kokoro TTS 進行本地文字轉語音。在終端機中生成語音、朗讀文字並處理多語言語音合成。
利用費曼技巧、蘇格拉底教學法與認知負荷理論等大師級教學策略,將複雜概念轉化為清晰易懂的解釋。
使用螢幕閱讀器(如 VoiceOver、NVDA 和 JAWS)測試 Web 應用程式。驗證無障礙兼容性、除錯輔助技術問題,並確保符合螢幕閱讀器的支援標準。
使用 Playwright 測試本地 Web 應用程式的工具組,支援伺服器生命週期管理、自動化 DOM 檢測與瀏覽器自動化工作流程。
Svelte 5 測試專家,運用 vitest-browser-svelte 與 Playwright。提供單元測試、SSR 與 E2E 測試模式,並附帶供 AI 助手使用的 CLI 工具以檢索測試範例。
透過本地 SQLite 管理個人財務,包含支出分類、預算設定,以及定期帳單與年度費用的自動提醒功能。
使用 Jupyter Notebook 在瀏覽器中互動式測試 Adobe EDS 區塊。支援 ES6 匯入、疊加層預覽、響應式裝置測試,以及零依賴執行環境。
管理多鏈加密錢包系統的 CI/CD 工作流程、Docker 容器化與基礎設施配置。
執行 RDF4J 中可重複的 Maven 測試,提供模組化工作流程、自動環境刷新與實用的錯誤報告。