研究
github-wayback-recovery avatar

github-wayback-recovery

使用互联网档案馆 API 恢復已刪除的 GitHub 存儲庫內容、問題、PR 和文件。

簡介

github-wayback-recovery 是一項專門的取證工具,旨在利用互联网档案馆的 Wayback Machine 來重建已刪除或消失的 GitHub 存儲庫。它適用於安全研究人員、數位調查員以及需要恢復 GitHub 平台上已無法存取的歷史專案資料的開發人員。通過與 Wayback Machine 的 CDX API 和標準 URL 模式交互,該工具可以系統地搜尋存儲庫、單個檔案、拉取請求和問題討論的存檔快照。

  • 自動識別 GitHub 存儲庫主頁、提交列表和網絡圖的存檔快照。

  • 協助提取已刪除專案的歷史 README 檔案、Wiki 頁面和元數據。

  • 提供特定 GitHub 構件的深層連結支持,包括問題標題、PR 對話和發布說明。

  • 利用 Capture Index (CDX) API 執行批量 URL 模式搜索,實現跨特定專案分支或路徑的內容發現。

  • 與更廣泛的取證工作流程集成,包括將提交 SHA 與其他恢復工具進行交叉引用,以彌補存儲庫歷史中的空白。

  • 支持按狀態碼、日期和 URL 鍵進行過濾,以減少恢復過程中的干擾。

  • 使用者應注意,此技能恢復的是網頁渲染內容,而非完整的 Git 存儲庫克隆;無法使用此方法重建完整的存儲庫歷史。

  • 成功與否嚴格取決於互联网档案馆或其他網路爬蟲在歷史上是否索引了所需的特定 URL。

  • 此工具對私有存儲庫或在抓取時受身份驗證保護的內容無效。

  • 常見輸入包括存儲庫擁有者和名稱,而輸出通常由原始 HTML 片段或指向歷史捕獲時間戳的連結組成。

  • 在執行批量 CDX 查詢之前,應始終通過 archive.org/wayback/available 檢查快照是否存在,以優化操作效率。

  • 當此工具與 github-commit-recovery 和 github-archive 等互補取證技能結合使用時,對於結構化事件資料分析效果最佳。

倉庫統計

Star 數
2,385
Fork 數
367
Open Issue 數
17
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午01:23
在 GitHub 查看