工程开发
prompt-injection-test avatar

prompt-injection-test

一个专为模拟提示词注入攻击并验证 AI 代理技能安全扫描器而设计的测试工具。

简介

此技能作为一个受控环境,用于测试 AI 驱动代理框架的安全性与对抗性提示词的稳健性。它作为一个基准测试工具,旨在验证安全扫描器能否有效检测恶意指令、系统覆盖以及未经授权的代码执行模式。通过提供标准化的“注入”有效负载,该技能使开发人员与安全工程师能够评估其纵深防御机制(如静态分析、行为监控以及基于大语言模型的守门员)的敏感度与准确性。

  • 模拟常见的提示词注入攻击向量,包含系统提示词操纵与“越狱”尝试。

  • 包含内嵌的恶意有效负载,例如未经授权的系统指令执行调用(如通过 os.system 进行 Shell 交互)。

  • 验证安全扫描引擎(如 Cisco AI Skill Scanner 或其他基于 YAML/YARA 的分析器)的检测能力。

  • 作为训练或调整检测模型的基准数据集,以减少生产代理环境中的漏报情况。

  • 非常适合用于安全研究、红队演练以及 AI 应用程序的自动化 CI/CD 流水线完整性检查。

  • 此技能仅供安全测试、开发环境与研究目的使用,请勿部署于生产环境中。

  • 预期输入涉及与触发该技能的 AI 代理进行交互,以便扫描器监控恶意有效负载的数据流。

  • 用户应监控日志输出,以查看与提示词注入、指令注入与未经授权的数据访问模式相关的警报。

  • 在执行这些测试有效负载时,请确保您的本地环境经过适当的沙盒化或隔离,以防止意外的系统损害。

  • 此构件符合代理技能规范与标准 AI 安全框架测试协议,为基于模式的检测系统提供清晰的信号。

仓库统计

Star 数
1,887
Fork 数
231
Open Issue 数
8
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 09:14
在 GitHub 查看