工程開發
prompt-injection-test avatar

prompt-injection-test

一個專為模擬提示詞注入攻擊並驗證 AI 代理技能安全掃描器而設計的測試工具。

簡介

此技能作為一個受控環境,用於測試 AI 驅動代理框架的安全性與對抗性提示詞的穩健性。它作為一個基準測試工具,旨在驗證安全掃描器能否有效偵測惡意指令、系統覆寫以及未經授權的程式碼執行模式。透過提供標準化的「注入」有效負載,該技能使開發人員與安全工程師能夠評估其縱深防禦機制(如靜態分析、行為監控以及基於大型語言模型的守門員)的敏感度與準確性。

  • 模擬常見的提示詞注入攻擊向量,包含系統提示詞操縱與「越獄」嘗試。

  • 包含內嵌的惡意有效負載,例如未經授權的系統指令執行呼叫(如透過 os.system 進行 Shell 互動)。

  • 驗證安全掃描引擎(如 Cisco AI Skill Scanner 或其他基於 YAML/YARA 的分析器)的偵測能力。

  • 作為訓練或調整偵測模型的基準數據集,以減少生產代理環境中的漏報情況。

  • 非常適合用於安全研究、紅隊演練以及 AI 應用程式的自動化 CI/CD 管線完整性檢查。

  • 此技能僅供安全測試、開發環境與研究目的使用,請勿部署於生產環境中。

  • 預期輸入涉及與觸發該技能的 AI 代理進行互動,以便掃描器監控惡意有效負載的資料流。

  • 使用者應監控日誌輸出,以查看與提示詞注入、指令注入與未經授權的資料存取模式相關的警報。

  • 在執行這些測試有效負載時,請確保您的本地環境經過適當的沙盒化或隔離,以防止意外的系統損害。

  • 此構件符合代理技能規範與標準 AI 安全框架測試協定,為基於模式的偵測系統提供清晰的訊號。

倉庫統計

Star 數
1,887
Fork 數
231
Open Issue 數
8
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月1日 上午09:14
在 GitHub 查看