研究
github-wayback-recovery avatar

github-wayback-recovery

使用 Wayback Machine CDX API 查询与网页存档快照,恢复已删除的 GitHub 仓库内容、Issues、PR 与文件。

简介

github-wayback-recovery 技能是一项专门的取证工具,旨在从已被删除或无法访问的 GitHub 仓库中重建信息。通过利用 Internet Archive 的 Wayback Machine 及其强大的 Capture Index (CDX) API,此技能允许用户系统地定位并提取项目构件的存档版本。对于需要找回丢失的 README 文件、历史问题讨论、合并请求 (PR) 元数据、Wiki 文档及仓库配置的安全研究人员、开源调查员与开发者而言,这是一项必不可少的工具。该工具通过为各种 GitHub URL 结构(包括 blobs、trees 及特定的协作构件)提供结构化的查询模式,简化了与存档数据交互的复杂性。

  • 执行自动化归档可用性检查,以确定目标仓库是否已被索引。

  • 利用 CDX API 执行精确搜索,使用前缀匹配、状态码过滤和基于时间戳的查询来减少噪声。

  • 将 GitHub 特定的 URL 模式(提交、PR、问题、版本、Wiki)映射到对应的存档查询字符串。

  • 协助进行项目元数据的取证重建,包括星数、语言及授权信息。

  • 与其他取证技能(如 github-commit-recovery 和 github-archive)无缝集成,进行多层次的历史分析。

  • 处理 issue 内容、PR 评论和版本说明等非代码构件的恢复,这些内容通常在主要仓库删除后仍被保留。

  • 需要互联网连接以访问 Wayback Machine API (archive.org)。

  • 恢复成功与否完全取决于内容是否在删除前已被网络存档服务爬取及捕捉。

  • 请注意,此技能无法恢复私人仓库、受身份验证保护的内容或完整的 Git 提交历史;它仅恢复呈现后的 HTML/网页快照。

  • 用户在元数据指示存在提交 SHA 时,应将此技能与本地 git 分析工具结合使用。

  • 输入参数通常需要所有者与仓库名称;输出提供特定时间戳快照的 URL。

  • 在尝试网页存档抓取之前,请务必先检查 github-archive 技能以获取结构化事件数据。

仓库统计

Star 数
2,385
Fork 数
367
Open Issue 数
17
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 07:52
在 GitHub 查看