evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 320 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
一套用於建構穩健 LLM 整合的工具包:包含 API 模式、串流、函數調用、RAG 管線及具成本效益的模型路由。
下載並分析 YouTube 影片字幕,提取技術洞察、總結複雜教學,並將影片內容與您的程式碼庫關聯起來。
將聊天對話轉化為 Notion 中的結構化文件,將見解、決策和知識保存到您的工作區,並進行妥善整理。
全球情報自動匯總工具,生成市場、政經與 AI 新聞報告。支援 RSS 聚合、重大事件告警與結構化情報推演,協助用戶高效追蹤全球動態。
基於 Exa AI 的神經網絡搜尋與程式碼上下文檢索。適用於技術文件查詢、程式碼範例搜尋、研究報告及企業資訊搜集。
透過蘇格拉底式提問深入探討信念、挖掘隱藏假設、檢驗證據,並在不說教的情況下達成深層理解的思考框架。
結構化推理工具,用於複雜問題分解、分步分析、一致性驗證以及帶有置信度評分的證據合成。
為 LangChain 應用程式提供統一介面,整合並管理 OpenAI、Anthropic、Google、Azure 與 Bedrock 等 LLM 聊天模型服務。
結構化平行腦力激盪代理,專注於概念發想與擴展。透過多代理視角將模糊想法轉化為實用願景。僅限發想,不用於任務規劃。
手動觸發 Hipocampus 記憶體刷新,將當前對話上下文存入原始日誌,並啟動壓縮樹程序,以維護 AI 代理的長期記憶。
利用 Azure OpenAI GPT Realtime Mini 模型與 WebSocket 串流技術,產生 AI 播客風格的音訊敘事,包含 PCM 轉 WAV 及前端播放整合。