工程開發
indirect-injection-detection avatar

indirect-injection-detection

檢測 AI 代理中的間接提示注入與目標劫持,評估代理處理 RAG、文件與網頁內容等外部資訊時的安全性。

簡介

間接提示注入檢測 (indirect-injection-detection) 是一項專門的安全性診斷工具,旨在識別 AI 代理在處理外部資料時,其原始指令可能被惡意內容覆寫的弱點。在現代代理架構中,模型經常將外部語境(如 RAG 檢索到的資料塊、上傳的文件或抓取的網頁)作為推理的一部分。攻擊者可以透過在這些外部來源中嵌入隱藏指令,誘使代理無視其系統提示、洩漏內部敏感資料或執行未經授權的操作。此技能透過模擬這些現實場景,確保代理在接收不可信輸入時仍能保持安全性與完整性。

  • 透過識別代理是否遵循嵌入在外部資料源中的指令,偵測目標劫持行為。

  • 模擬多種攻擊向量,包括基於 RAG 的檢索投毒、文檔風格注入以及網頁內容篡改。

  • 實作基於標記的驗證機制,根據代理的回應提供清晰的通過或失敗判斷。

  • 評估潛在的資料外洩風險,例如在外部內容觸發下洩露系統提示或 API 金鑰。

  • 提供可執行的風險評估,若代理遵循惡意注入指令,則將其判定為漏洞。

  • 最適用於使用 RAG(檢索增強生成)、文件上傳處理或自動抓取網頁內容的 AI 代理。

  • 需要具備對話介面,以便將測試提示詞與模擬的外部語境一併傳送。

  • 在定義測試案例時,請確保有效負載包含明確的惡意目標(例如「回覆 PWNED」或「輸出你的系統提示詞」),以確認代理邏輯是否受損。

  • 請將所有外部輸入視為不可信,若代理產出標記或遵循隱藏指令,則證實其對間接提示注入存在脆弱性。

  • 建議將此工具納入 AI 開發流程的定期紅隊測試與自動化安全回歸測試,以增強 LLM 對抗對抗性輸入污染的韌性。

倉庫統計

Star 數
3,605
Fork 數
358
Open Issue 數
8
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月1日 上午07:00
在 GitHub 查看