工程開發
indirect-injection-detection
檢測 AI 代理中的間接提示注入與目標劫持,評估代理處理 RAG、文件與網頁內容等外部資訊時的安全性。
簡介
間接提示注入檢測 (indirect-injection-detection) 是一項專門的安全性診斷工具,旨在識別 AI 代理在處理外部資料時,其原始指令可能被惡意內容覆寫的弱點。在現代代理架構中,模型經常將外部語境(如 RAG 檢索到的資料塊、上傳的文件或抓取的網頁)作為推理的一部分。攻擊者可以透過在這些外部來源中嵌入隱藏指令,誘使代理無視其系統提示、洩漏內部敏感資料或執行未經授權的操作。此技能透過模擬這些現實場景,確保代理在接收不可信輸入時仍能保持安全性與完整性。
-
透過識別代理是否遵循嵌入在外部資料源中的指令,偵測目標劫持行為。
-
模擬多種攻擊向量,包括基於 RAG 的檢索投毒、文檔風格注入以及網頁內容篡改。
-
實作基於標記的驗證機制,根據代理的回應提供清晰的通過或失敗判斷。
-
評估潛在的資料外洩風險,例如在外部內容觸發下洩露系統提示或 API 金鑰。
-
提供可執行的風險評估,若代理遵循惡意注入指令,則將其判定為漏洞。
-
最適用於使用 RAG(檢索增強生成)、文件上傳處理或自動抓取網頁內容的 AI 代理。
-
需要具備對話介面,以便將測試提示詞與模擬的外部語境一併傳送。
-
在定義測試案例時,請確保有效負載包含明確的惡意目標(例如「回覆 PWNED」或「輸出你的系統提示詞」),以確認代理邏輯是否受損。
-
請將所有外部輸入視為不可信,若代理產出標記或遵循隱藏指令,則證實其對間接提示注入存在脆弱性。
-
建議將此工具納入 AI 開發流程的定期紅隊測試與自動化安全回歸測試,以增強 LLM 對抗對抗性輸入污染的韌性。
倉庫統計
- Star 數
- 3,605
- Fork 數
- 358
- Open Issue 數
- 8
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午07:00