工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 137 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
生成有限差分模板,选择PDE/ODE数值离散化方案,并执行截断误差分析以提升模拟精度。
通过 Pollinations 文本 API 调用支持网页搜索的 Gemini 和 Perplexity 等模型,获取即时且具备事实依据的研究结果。
专业的漏洞赏金报告代理,强制执行“影响优先”写作、CVSS 3.1 评分,并为 HackerOne、Bugcrowd 和 Intigriti 等平台提供提交前验证。
使用 Microsoft Edge 神经 TTS 服务生成高质量语音。支持多种语言、语音选择以及语速、音调与格式调整。
指导代理人记忆系统的实现,比较主流框架(Mem0、Zep、Letta、LangMem、Cognee),并设计用于跨会话知识保留的持久化架构。
证据优先的文献收集工具,专为自动化研究管线设计。将论文池扩充至 1200 篇以上,具备元数据规范化、来源追溯及多路径导入功能。
标准化前端沟通,通过记录后端开发人员所需的数据需求与业务规则,确保在不指定实现细节的情况下达成清晰的开发共识。
AI 驱动的口播视频剪辑 Agent,提供语音转录、口误识别与网页版审核流程。
根据产品代码手册将测试工程师的缺陷描述标准化,修正错别字、缩写错误与歧义,并执行站点验证。
使用 FlashInfer API 日志功能排查与解决 CUDA 运行时崩溃的教学指南。
根据最新文献验证研究想法的新颖性。适用于用户询问“查新”、“有没有人做过”或需要确认方法原创性时。