evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 137 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
透過自動化測試執行器、人工 LLM 判斷與結構化報告,評估 Deca 代理提示詞與行為一致性。
進階提示詞改寫與優化服務。分析提示詞的清晰度、具體性與結構,提供可執行的優化建議、多種變體選項,並教授提示工程的最佳實踐。
AI 代理會話的正式評估框架,實施評估驅動開發 (EDD) 原則以確保代理可靠性。
結構化手稿與經費審查助手,提供基於檢查清單的評估,涵蓋方法論、統計效度及報告標準(如 CONSORT/STROBE)合規性檢核。
使用 ScholarEval 框架系統性地評估學術研究工作,針對研究品質維度提供結構化的定量與定性分析,並提供具備執行力的反饋建議。
使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程,支援 LangChain、LangGraph 與 LlamaIndex 等框架。
全面的 AI 文本檢測框架。透過詞彙分析、結構模式、模型指紋與技術後設資料比對,精準辨識 AI 生成內容與寫作痕跡。
透過先進的上下文壓縮、結構化摘要與任務導向的狀態管理,為長期運行的 AI 代理會話優化效能並降低 Token 使用量。
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
防止 AI 幻覺,確保在分析程式碼、技術文件或提供建議時,輸出具備證據支持且可驗證的內容。