literature-engineer
证据优先的文献收集工具,专为自动化研究管线设计。将论文池扩充至 1200 篇以上,具备元数据规范化、来源追溯及多路径导入功能。
简介
Literature Engineer 是一种专为学术与技术研究管线的「证据优先」阶段所设计的专业技能。其核心目标在于构建大规模且可验证的论文候选池(1200 篇以上),这对于后续的去重、排序、引用生成与证据综合至关重要。通过自动化处理多样来源,它解决了下游写作与映射阶段常见的「资料量不足」问题。
此技能强调稳健性,将数据可追溯性(provenance)视为首要需求。每条处理过的记录皆经过规范化,包含稳定标识符(arXiv ID、DOI 或可信网址)与详细的来源标记。它能与领域专属包(如 LLM Agents 专用包)无缝整合,确保关键论文即使在关键词检索质量波动时仍能被包含。适用于需要可重复、可稽核文献堆叠的研究人员、技术写作者及调查自动化代理。
-
多路径数据导入:支持从本地 bib/jsonl/csv 文件、离线导出及在线 API 检索(arXiv/Semantic Scholar)进行整合。
-
证据追溯架构:为每个项目标记确切来源,确保透明度并方便下游分析筛选。
-
雪球扩充与延伸:支持通过参考文献与引用链接进行迭代扩充,提升主题覆盖深度。
-
元数据规范化:将异质输入清理并标准化为统一的
papers_raw.jsonl格式。 -
网络韧性设计:支持仅离线模式或通过代理(如 jina.ai)的混合模式,确保管线在受限环境下的连续性。
-
使用情境:主要作为调查管线(Survey Pipeline)的 Stage C1,确保在撰写阶段前具备足够的证据厚度。
-
输入要求:需要
queries.md进行配置;支持放置于papers/imports/的原始导出文件。 -
产出物:产生
papers_raw.jsonl(主要数据)、papers_raw.csv(人工检视)及retrieval_report.md(覆盖统计)。 -
防护机制:严格禁止编造论文;若无法达到预设数量阈值将阻断执行,以确保高质量的证据堆叠。
仓库统计
- Star 数
- 422
- Fork 数
- 29
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 14:14