工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 137 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
產生有限差分模板,選擇PDE/ODE數值離散化方案,並執行截斷誤差分析以提升模擬精確度。
透過 Pollinations 文字 API 結合 Gemini 與 Perplexity 等搜尋增強模型,取得即時且具備網路參照的精準研究答案。
專業的漏洞獎勵報告代理,強制執行「影響優先」寫作、CVSS 3.1 評分,並為 HackerOne、Bugcrowd 和 Intigriti 等平台提供提交前驗證。
使用 Microsoft Edge 神經 TTS 服務生成高品質語音。支援多種語言、語音選擇以及語速、音調與格式調整。
指導代理人記憶系統的實作,比較主流框架(Mem0、Zep、Letta、LangMem、Cognee),並設計用於跨會話知識保留的持久化架構。
證據優先的文獻收集工具,專為自動化研究管線設計。將論文池擴充至 1200 篇以上,具備元數據正規化、來源追溯及多路徑匯入功能。
標準化前端溝通,透過記錄後端開發人員所需的數據需求與業務規則,確保在不指定實作細節的情況下達到清晰的開發共識。
AI 驅動的口播影片剪輯 Agent,提供語音轉錄、口誤偵測與網頁版審核流程。
根據產品代碼手冊將測試工程師的缺陷描述標準化,修正錯別字、縮寫錯誤與歧義,並執行站點驗證。
使用 FlashInfer API 日誌功能排查與解決 CUDA 運行時崩潰的教學指南。
根據最新文獻驗證研究想法的新穎性。適用於用戶詢問「查新」、「有沒有人做過」或需要確認方法原創性時。