工程開發
prompt-injection-test
一個專為模擬提示詞注入攻擊並驗證 AI 代理技能安全掃描器而設計的測試工具。
簡介
此技能作為一個受控環境,用於測試 AI 驅動代理框架的安全性與對抗性提示詞的穩健性。它作為一個基準測試工具,旨在驗證安全掃描器能否有效偵測惡意指令、系統覆寫以及未經授權的程式碼執行模式。透過提供標準化的「注入」有效負載,該技能使開發人員與安全工程師能夠評估其縱深防禦機制(如靜態分析、行為監控以及基於大型語言模型的守門員)的敏感度與準確性。
-
模擬常見的提示詞注入攻擊向量,包含系統提示詞操縱與「越獄」嘗試。
-
包含內嵌的惡意有效負載,例如未經授權的系統指令執行呼叫(如透過 os.system 進行 Shell 互動)。
-
驗證安全掃描引擎(如 Cisco AI Skill Scanner 或其他基於 YAML/YARA 的分析器)的偵測能力。
-
作為訓練或調整偵測模型的基準數據集,以減少生產代理環境中的漏報情況。
-
非常適合用於安全研究、紅隊演練以及 AI 應用程式的自動化 CI/CD 管線完整性檢查。
-
此技能僅供安全測試、開發環境與研究目的使用,請勿部署於生產環境中。
-
預期輸入涉及與觸發該技能的 AI 代理進行互動,以便掃描器監控惡意有效負載的資料流。
-
使用者應監控日誌輸出,以查看與提示詞注入、指令注入與未經授權的資料存取模式相關的警報。
-
在執行這些測試有效負載時,請確保您的本地環境經過適當的沙盒化或隔離,以防止意外的系統損害。
-
此構件符合代理技能規範與標準 AI 安全框架測試協定,為基於模式的偵測系統提供清晰的訊號。
倉庫統計
- Star 數
- 1,887
- Fork 數
- 231
- Open Issue 數
- 8
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午09:14