研究
literature-engineer avatar

literature-engineer

证据优先的文献收集工具,专为自动化研究管线设计。将论文池扩充至 1200 篇以上,具备元数据规范化、来源追溯及多路径导入功能。

简介

Literature Engineer 是一种专为学术与技术研究管线的「证据优先」阶段所设计的专业技能。其核心目标在于构建大规模且可验证的论文候选池(1200 篇以上),这对于后续的去重、排序、引用生成与证据综合至关重要。通过自动化处理多样来源,它解决了下游写作与映射阶段常见的「资料量不足」问题。

此技能强调稳健性,将数据可追溯性(provenance)视为首要需求。每条处理过的记录皆经过规范化,包含稳定标识符(arXiv ID、DOI 或可信网址)与详细的来源标记。它能与领域专属包(如 LLM Agents 专用包)无缝整合,确保关键论文即使在关键词检索质量波动时仍能被包含。适用于需要可重复、可稽核文献堆叠的研究人员、技术写作者及调查自动化代理。

  • 多路径数据导入:支持从本地 bib/jsonl/csv 文件、离线导出及在线 API 检索(arXiv/Semantic Scholar)进行整合。

  • 证据追溯架构:为每个项目标记确切来源,确保透明度并方便下游分析筛选。

  • 雪球扩充与延伸:支持通过参考文献与引用链接进行迭代扩充,提升主题覆盖深度。

  • 元数据规范化:将异质输入清理并标准化为统一的 papers_raw.jsonl 格式。

  • 网络韧性设计:支持仅离线模式或通过代理(如 jina.ai)的混合模式,确保管线在受限环境下的连续性。

  • 使用情境:主要作为调查管线(Survey Pipeline)的 Stage C1,确保在撰写阶段前具备足够的证据厚度。

  • 输入要求:需要 queries.md 进行配置;支持放置于 papers/imports/ 的原始导出文件。

  • 产出物:产生 papers_raw.jsonl(主要数据)、papers_raw.csv(人工检视)及 retrieval_report.md(覆盖统计)。

  • 防护机制:严格禁止编造论文;若无法达到预设数量阈值将阻断执行,以确保高质量的证据堆叠。

仓库统计

Star 数
422
Fork 数
29
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 14:14
在 GitHub 查看