工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 122 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
掌握先进的提示工程技术,以最大化生产环境中大型语言模型(LLM)的性能、可靠性和可控性。
使用 LlamaExtract 实现从 PDF、DOCX 和 PPTX 等非结构化文件中提取结构化数据的方案,并通过 Pydantic 定义数据架构。
从研究报告到成品 PDF 的全自动论文写作流水线。
将多个研究智能体的发现综合为连贯且附引用的研究报告,解析矛盾并提取核心共识。
通过 Pollinations 文本 API 调用支持网页搜索的 Gemini 和 Perplexity 等模型,获取即时且具备事实依据的研究结果。
为研究、开发与测试工作流部署网格、层级与星状拓扑等进阶多代理人蜂群编排策略。
通过将大型任务自动拆解为可管理的递归子任务,突破上下文窗口限制,提升对大型代码库和文档集的推理准确度。
生成个性化且经过验证的每日新闻简报,针对您的兴趣、项目与竞争对手进行分析,并严格执行 7 天内新闻时效要求。
一套观点工程引擎,通过多代理研究与表达 DNA 分析,提取目标的思维框架并生成可执行的模拟人格技能。
智能研究代理,可自动在快速网页搜索、深度多来源合成与学术数据库查询之间路由您的查询。
执行实现规划工作流程,生成技术设计产出物,并为 Spec Kit 项目构建研究任务。