github-wayback-recovery
使用互联网档案馆 API 恢复已删除的 GitHub 存储库内容、问题、PR 和文件。
简介
github-wayback-recovery 是一项专门的取证工具,旨在利用互联网档案馆的 Wayback Machine 来重建已删除或消失的 GitHub 存储库。它适用于安全研究人员、数字调查员以及需要恢复 GitHub 平台上已无法访问的历史项目数据的开发人员。通过与 Wayback Machine 的 CDX API 和标准 URL 模式交互,该工具可以系统地探测存储库、单个文件、拉取请求和问题讨论的存档快照。
-
自动识别 GitHub 存储库主页、提交列表和网络图的存档快照。
-
协助提取已删除项目的历史 README 文件、Wiki 页面和元数据。
-
提供特定 GitHub 构件的深层链接支持,包括问题标题、PR 对话和发布说明。
-
利用 Capture Index (CDX) API 执行批量 URL 模式搜索,实现跨特定项目分支或路径的内容发现。
-
与更广泛的取证工作流程集成,包括将提交 SHA 与其他恢复工具进行交叉引用,以弥补存储库历史中的空白。
-
支持按状态码、日期和 URL 键进行过滤,以减少恢复过程中的干扰。
-
用户应注意,此技能恢复的是网页渲染内容,而非完整的 Git 存储库克隆;无法使用此方法重建完整的存储库历史。
-
成功与否严格取决于互联网档案馆或其他网络爬虫在历史上是否索引了所需的特定 URL。
-
此工具对私有存储库或在抓取时受身份验证保护的内容无效。
-
常见输入包括存储库拥有者和名称,而输出通常由原始 HTML 片段或指向历史捕获时间戳的链接组成。
-
在执行批量 CDX 查询之前,应始终通过 archive.org/wayback/available 检查快照是否存在,以优化操作效率。
-
当此工具与 github-commit-recovery 和 github-archive 等互补取证技能结合使用时,对于结构化事件数据分析效果最佳。
仓库统计
- Star 数
- 2,385
- Fork 数
- 367
- Open Issue 数
- 17
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 01:23