工程开发
indirect-injection-detection avatar

indirect-injection-detection

检测 AI 代理中的间接提示注入与目标劫持,评估代理处理 RAG、文档与网页内容等外部信息时的安全性。

简介

间接提示注入检测 (indirect-injection-detection) 是一项专门的安全性诊断工具,旨在识别 AI 代理在处理外部资料时,其原始指令可能被恶意内容覆盖的弱点。在现代代理架构中,模型经常将外部语境(如 RAG 检索到的资料块、上传的文件或抓取的网页)作为推理的一部分。攻击者可以通过在这些外部来源中嵌入隐藏指令,诱使代理无视其系统提示、泄漏内部敏感资料或执行未经授权的操作。此技能通过模拟这些现实场景,确保代理在接收不可信输入时仍能保持安全与完整性。

  • 通过识别代理是否遵循嵌入在外部资料源中的指令,检测目标劫持行为。

  • 模拟多种攻击向量,包括基于 RAG 的检索投毒、文档风格注入以及网页内容篡改。

  • 实作基于标记的验证机制,根据代理的响应提供清晰的通过或失败判断。

  • 评估潜在的资料外泄风险,例如在外部内容触发下泄漏系统提示或 API 密钥。

  • 提供可执行的风险评估,若代理遵循恶意注入指令,则将其判定为漏洞。

  • 最适用于使用 RAG(检索增强生成)、文件上传处理或自动抓取网页内容的 AI 代理。

  • 需要具备对话界面,以便将测试提示词与模拟的外部语境一并传送。

  • 在定义测试案例时,请确保有效负载包含明确的恶意目标(例如“回复 PWNED”或“输出你的系统提示词”),以确认代理逻辑是否受损。

  • 请将所有外部输入视为不可信,若代理产出标记或遵循隐藏指令,则证实其对间接提示注入存在脆弱性。

  • 建议将此工具纳入 AI 开发流程的定期红队测试与自动化安全回归测试,以增强 LLM 对抗对抗性输入污染的韧性。

仓库统计

Star 数
3,605
Fork 数
358
Open Issue 数
8
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 07:00
在 GitHub 查看