簡介

Literature Engineer 是一種專為學術與技術研究管線的「證據優先」階段所設計的專業技能。其核心目標在於建構大規模且可驗證的論文候選池（1200 篇以上），這對於後續的去重、排序、引用生成與證據綜合至關重要。透過自動化處理多樣來源，它解決了下游寫作與映射階段常見的「資料量不足」問題。

此技能強調穩健性，將資料追溯性（provenance）視為首要需求。每條處理過的紀錄皆經過正規化，包含穩定識別碼（arXiv ID、DOI 或可信網址）與詳細的來源標記。它能與領域專屬包（如 LLM Agents 專用包）無縫整合，確保關鍵論文即使在關鍵字檢索品質波動時仍能被包含。適用於需要可重複、可稽核文獻堆疊的研究人員、技術寫作者及調查自動化代理。

多路徑資料匯入：支援從本地 bib/jsonl/csv 檔案、離線導出及線上 API 檢索（arXiv/Semantic Scholar）進行整合。
證據追溯架構：為每個項目標記確切來源，確保透明度並方便下游分析篩選。
雪球擴充與延伸：支援透過參考文獻與引用連結進行迭代擴充，提升主題覆蓋深度。
元數據正規化：將異質輸入清理並標準化為統一的 papers_raw.jsonl 格式。
網路韌性設計：支援僅離線模式或透過代理（如 jina.ai）的混合模式，確保管線在受限環境下的連續性。
使用情境：主要作為調查管線（Survey Pipeline）的 Stage C1，確保在撰寫階段前具備足夠的證據厚度。
輸入要求：需要 queries.md 進行配置；支援放置於 papers/imports/ 的原始匯出檔案。
產出物：產生 papers_raw.jsonl（主要資料）、papers_raw.csv（人工檢視）及 retrieval_report.md（覆蓋統計）。
防護機制：嚴格禁止編造論文；若無法達到預設數量閾值將阻斷執行，以確保高品質的證據堆疊。

創業課程

網上課程

實體課程

literature-engineer

簡介

倉庫統計