trulens-evaluation-workflow
使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程,支援 LangChain、LangGraph 與 LlamaIndex 等框架。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 138 個技能
使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程,支援 LangChain、LangGraph 與 LlamaIndex 等框架。
使用 AI 驅動的分析技術,將現有專案遷移至 AgenticDev 結構。自動分類文件、生成豐富的 YAML 元數據,並透過 git mv 完整保留檔案變更歷程。
AI 語言學習導師,提供對話練習、文法教學、單字訓練及字卡記憶。支援超過 100 種語言,包含西班牙語、法語、日語及中文等。
自動化 Payload CMS 核心套件與插件的在地化翻譯字串生成與同步。
用於構建健壯 AI Agent 技能的元技能,採用測試驅動開發 (TDD) 方法:定義失敗 (RED)、實作技能 (GREEN) 並修補合理化漏洞 (REFACTOR)。
發現並安裝代理技能以擴展 DeerFlow 功能。使用此技能搜尋適用於編碼、測試、部署等任務的工具、工作流程或專業知識。
一個受強化學習啟發的 YouTube 績效追蹤工具,透過系統化記錄來優化縮圖、標題與影片鉤子。
診斷、隔離並緩解 LLM 上下文故障(如中間丟失、中毒、干擾及衝突),提升 AI 代理的執行可靠性。
將現有的 OpenAI Apps SDK 應用程序遷移到 MCP Apps SDK,提供分步指導、API 映射表以及內容安全策略 (CSP) 調查工作流程。
分析並識別代碼庫模式(命名、架構、測試),以確保開發過程中的一致性與標準執行。
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
使用向量資料庫、語意搜尋與 LangGraph 構建生產級 RAG 系統,為 LLM 提供外部知識基礎。