工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 23★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 122 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
掌握先進的提示工程技術,以最大化生產環境中大型語言模型(LLM)的性能、可靠性和可控性。
使用 LlamaExtract 實作從 PDF、DOCX 與 PPTX 等非結構化檔案中擷取結構化資料的解決方案,並透過 Pydantic 定義資料架構。
從研究報告到成品 PDF 的全自動論文寫作流水線。
將多個研究智能體的發現綜合為連貫且附引用的研究報告,解析矛盾並提取核心共識。
透過 Pollinations 文字 API 結合 Gemini 與 Perplexity 等搜尋增強模型,取得即時且具備網路參照的精準研究答案。
為研究、開發與測試工作流部署網格、層級與星狀拓撲等進階多代理人蜂群編排策略。
透過將大型任務自動拆解為可管理的遞迴子任務,突破上下文視窗限制,提升對大型程式碼庫與文件集的推理準確度。
生成個人化且經過驗證的每日新聞簡報,針對您的興趣、專案與競爭對手進行分析,並嚴格執行 7 天內新聞時效要求。
一套觀點工程引擎,透過多代理研究與表達 DNA 分析,提取目標的思維框架並生成可執行的模擬人格技能。
智慧型研究代理,可自動在快速網頁搜尋、深度多來源合成與學術資料庫查詢之間路由您的查詢。
執行實作規劃工作流程,產生技術設計產出物,並為 Spec Kit 專案建構研究任務。