literature-engineer
證據優先的文獻收集工具,專為自動化研究管線設計。將論文池擴充至 1200 篇以上,具備元數據正規化、來源追溯及多路徑匯入功能。
簡介
Literature Engineer 是一種專為學術與技術研究管線的「證據優先」階段所設計的專業技能。其核心目標在於建構大規模且可驗證的論文候選池(1200 篇以上),這對於後續的去重、排序、引用生成與證據綜合至關重要。透過自動化處理多樣來源,它解決了下游寫作與映射階段常見的「資料量不足」問題。
此技能強調穩健性,將資料追溯性(provenance)視為首要需求。每條處理過的紀錄皆經過正規化,包含穩定識別碼(arXiv ID、DOI 或可信網址)與詳細的來源標記。它能與領域專屬包(如 LLM Agents 專用包)無縫整合,確保關鍵論文即使在關鍵字檢索品質波動時仍能被包含。適用於需要可重複、可稽核文獻堆疊的研究人員、技術寫作者及調查自動化代理。
-
多路徑資料匯入:支援從本地 bib/jsonl/csv 檔案、離線導出及線上 API 檢索(arXiv/Semantic Scholar)進行整合。
-
證據追溯架構:為每個項目標記確切來源,確保透明度並方便下游分析篩選。
-
雪球擴充與延伸:支援透過參考文獻與引用連結進行迭代擴充,提升主題覆蓋深度。
-
元數據正規化:將異質輸入清理並標準化為統一的
papers_raw.jsonl格式。 -
網路韌性設計:支援僅離線模式或透過代理(如 jina.ai)的混合模式,確保管線在受限環境下的連續性。
-
使用情境:主要作為調查管線(Survey Pipeline)的 Stage C1,確保在撰寫階段前具備足夠的證據厚度。
-
輸入要求:需要
queries.md進行配置;支援放置於papers/imports/的原始匯出檔案。 -
產出物:產生
papers_raw.jsonl(主要資料)、papers_raw.csv(人工檢視)及retrieval_report.md(覆蓋統計)。 -
防護機制:嚴格禁止編造論文;若無法達到預設數量閾值將阻斷執行,以確保高品質的證據堆疊。
倉庫統計
- Star 數
- 422
- Fork 數
- 29
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 下午02:14