研究
literature-engineer avatar

literature-engineer

證據優先的文獻收集工具,專為自動化研究管線設計。將論文池擴充至 1200 篇以上,具備元數據正規化、來源追溯及多路徑匯入功能。

簡介

Literature Engineer 是一種專為學術與技術研究管線的「證據優先」階段所設計的專業技能。其核心目標在於建構大規模且可驗證的論文候選池(1200 篇以上),這對於後續的去重、排序、引用生成與證據綜合至關重要。透過自動化處理多樣來源,它解決了下游寫作與映射階段常見的「資料量不足」問題。

此技能強調穩健性,將資料追溯性(provenance)視為首要需求。每條處理過的紀錄皆經過正規化,包含穩定識別碼(arXiv ID、DOI 或可信網址)與詳細的來源標記。它能與領域專屬包(如 LLM Agents 專用包)無縫整合,確保關鍵論文即使在關鍵字檢索品質波動時仍能被包含。適用於需要可重複、可稽核文獻堆疊的研究人員、技術寫作者及調查自動化代理。

  • 多路徑資料匯入:支援從本地 bib/jsonl/csv 檔案、離線導出及線上 API 檢索(arXiv/Semantic Scholar)進行整合。

  • 證據追溯架構:為每個項目標記確切來源,確保透明度並方便下游分析篩選。

  • 雪球擴充與延伸:支援透過參考文獻與引用連結進行迭代擴充,提升主題覆蓋深度。

  • 元數據正規化:將異質輸入清理並標準化為統一的 papers_raw.jsonl 格式。

  • 網路韌性設計:支援僅離線模式或透過代理(如 jina.ai)的混合模式,確保管線在受限環境下的連續性。

  • 使用情境:主要作為調查管線(Survey Pipeline)的 Stage C1,確保在撰寫階段前具備足夠的證據厚度。

  • 輸入要求:需要 queries.md 進行配置;支援放置於 papers/imports/ 的原始匯出檔案。

  • 產出物:產生 papers_raw.jsonl(主要資料)、papers_raw.csv(人工檢視)及 retrieval_report.md(覆蓋統計)。

  • 防護機制:嚴格禁止編造論文;若無法達到預設數量閾值將阻斷執行,以確保高品質的證據堆疊。

倉庫統計

Star 數
422
Fork 數
29
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 下午02:14
在 GitHub 查看