简介

Literature Engineer 是一种专为学术与技术研究管线的「证据优先」阶段所设计的专业技能。其核心目标在于构建大规模且可验证的论文候选池（1200 篇以上），这对于后续的去重、排序、引用生成与证据综合至关重要。通过自动化处理多样来源，它解决了下游写作与映射阶段常见的「资料量不足」问题。

此技能强调稳健性，将数据可追溯性（provenance）视为首要需求。每条处理过的记录皆经过规范化，包含稳定标识符（arXiv ID、DOI 或可信网址）与详细的来源标记。它能与领域专属包（如 LLM Agents 专用包）无缝整合，确保关键论文即使在关键词检索质量波动时仍能被包含。适用于需要可重复、可稽核文献堆叠的研究人员、技术写作者及调查自动化代理。

多路径数据导入：支持从本地 bib/jsonl/csv 文件、离线导出及在线 API 检索（arXiv/Semantic Scholar）进行整合。
证据追溯架构：为每个项目标记确切来源，确保透明度并方便下游分析筛选。
雪球扩充与延伸：支持通过参考文献与引用链接进行迭代扩充，提升主题覆盖深度。
元数据规范化：将异质输入清理并标准化为统一的 papers_raw.jsonl 格式。
网络韧性设计：支持仅离线模式或通过代理（如 jina.ai）的混合模式，确保管线在受限环境下的连续性。
使用情境：主要作为调查管线（Survey Pipeline）的 Stage C1，确保在撰写阶段前具备足够的证据厚度。
输入要求：需要 queries.md 进行配置；支持放置于 papers/imports/ 的原始导出文件。
产出物：产生 papers_raw.jsonl（主要数据）、papers_raw.csv（人工检视）及 retrieval_report.md（覆盖统计）。
防护机制：严格禁止编造论文；若无法达到预设数量阈值将阻断执行，以确保高质量的证据堆叠。

创业课程

在线课程

实体课程

literature-engineer

简介

仓库统计