研究
github-wayback-recovery avatar

github-wayback-recovery

使用 Wayback Machine CDX API 查詢與網頁存檔快照,恢復已刪除的 GitHub 儲存庫內容、問題 (Issues)、PR 與檔案。

簡介

github-wayback-recovery 技能是一項專門的取證工具,旨在從已被刪除或無法訪問的 GitHub 儲存庫中重建資訊。透過利用 Internet Archive 的 Wayback Machine 及其強大的 Capture Index (CDX) API,此技能允許用戶系統地定位並提取專案構件的存檔版本。對於需要找回遺失的 README 檔案、歷史問題討論、合併請求 (PR) 元資料、Wiki 文件及儲存庫配置的安全研究人員、開源調查員與開發者而言,這是一項必不可少的工具。該工具透過為各種 GitHub URL 結構(包括 blobs、trees 及特定的協作構件)提供結構化的查詢模式,簡化了與存檔數據互動的複雜性。

  • 執行自動化歸檔可用性檢查,以確定目標儲存庫是否已被索引。

  • 利用 CDX API 執行精確搜索,使用前綴匹配、狀態碼過濾和基於時間戳的查詢來減少雜訊。

  • 將 GitHub 特定的 URL 模式(提交、PR、問題、版本、Wiki)映射到對應的存檔查詢字串。

  • 協助進行專案元資料的取證重建,包括星數、語言及授權資訊。

  • 與其他取證技能(如 github-commit-recovery 和 github-archive)無縫整合,進行多層次的歷史分析。

  • 處理 issue 內容、PR 評論和版本說明等非程式碼構件的恢復,這些內容通常在主要儲存庫刪除後仍被保留。

  • 需要網際網路連接以存取 Wayback Machine API (archive.org)。

  • 恢復成功與否完全取決於內容是否在刪除前已被網路存檔服務爬取及捕捉。

  • 請注意,此技能無法恢復私人儲存庫、受身份驗證保護的內容或完整的 Git 提交歷史;它僅恢復呈現後的 HTML/網頁快照。

  • 用戶在 metadata 指示存在提交 SHA 時,應將此技能與本地 git 分析工具結合使用。

  • 輸入參數通常需要擁有者與儲存庫名稱;輸出提供特定時間戳快照的 URL。

  • 在嘗試網頁存檔抓取之前,請務必先檢查 github-archive 技能以獲取結構化事件數據。

倉庫統計

Star 數
2,385
Fork 數
367
Open Issue 數
17
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午07:52
在 GitHub 查看