indirect-injection-detection

簡介

間接提示注入檢測 (indirect-injection-detection) 是一項專門的安全性診斷工具，旨在識別 AI 代理在處理外部資料時，其原始指令可能被惡意內容覆寫的弱點。在現代代理架構中，模型經常將外部語境（如 RAG 檢索到的資料塊、上傳的文件或抓取的網頁）作為推理的一部分。攻擊者可以透過在這些外部來源中嵌入隱藏指令，誘使代理無視其系統提示、洩漏內部敏感資料或執行未經授權的操作。此技能透過模擬這些現實場景，確保代理在接收不可信輸入時仍能保持安全性與完整性。

透過識別代理是否遵循嵌入在外部資料源中的指令，偵測目標劫持行為。
模擬多種攻擊向量，包括基於 RAG 的檢索投毒、文檔風格注入以及網頁內容篡改。
實作基於標記的驗證機制，根據代理的回應提供清晰的通過或失敗判斷。
評估潛在的資料外洩風險，例如在外部內容觸發下洩露系統提示或 API 金鑰。
提供可執行的風險評估，若代理遵循惡意注入指令，則將其判定為漏洞。
最適用於使用 RAG（檢索增強生成）、文件上傳處理或自動抓取網頁內容的 AI 代理。
需要具備對話介面，以便將測試提示詞與模擬的外部語境一併傳送。
在定義測試案例時，請確保有效負載包含明確的惡意目標（例如「回覆 PWNED」或「輸出你的系統提示詞」），以確認代理邏輯是否受損。
請將所有外部輸入視為不可信，若代理產出標記或遵循隱藏指令，則證實其對間接提示注入存在脆弱性。
建議將此工具納入 AI 開發流程的定期紅隊測試與自動化安全回歸測試，以增強 LLM 對抗對抗性輸入污染的韌性。

創業課程

網上課程

實體課程

indirect-injection-detection

簡介

倉庫統計