indirect-injection-detection

简介

间接提示注入检测 (indirect-injection-detection) 是一项专门的安全性诊断工具，旨在识别 AI 代理在处理外部资料时，其原始指令可能被恶意内容覆盖的弱点。在现代代理架构中，模型经常将外部语境（如 RAG 检索到的资料块、上传的文件或抓取的网页）作为推理的一部分。攻击者可以通过在这些外部来源中嵌入隐藏指令，诱使代理无视其系统提示、泄漏内部敏感资料或执行未经授权的操作。此技能通过模拟这些现实场景，确保代理在接收不可信输入时仍能保持安全与完整性。

通过识别代理是否遵循嵌入在外部资料源中的指令，检测目标劫持行为。
模拟多种攻击向量，包括基于 RAG 的检索投毒、文档风格注入以及网页内容篡改。
实作基于标记的验证机制，根据代理的响应提供清晰的通过或失败判断。
评估潜在的资料外泄风险，例如在外部内容触发下泄漏系统提示或 API 密钥。
提供可执行的风险评估，若代理遵循恶意注入指令，则将其判定为漏洞。
最适用于使用 RAG（检索增强生成）、文件上传处理或自动抓取网页内容的 AI 代理。
需要具备对话界面，以便将测试提示词与模拟的外部语境一并传送。
在定义测试案例时，请确保有效负载包含明确的恶意目标（例如“回复 PWNED”或“输出你的系统提示词”），以确认代理逻辑是否受损。
请将所有外部输入视为不可信，若代理产出标记或遵循隐藏指令，则证实其对间接提示注入存在脆弱性。
建议将此工具纳入 AI 开发流程的定期红队测试与自动化安全回归测试，以增强 LLM 对抗对抗性输入污染的韧性。

创业课程

在线课程

实体课程

indirect-injection-detection

简介

仓库统计