paper-reproduce
提供论文复现的系统性方法论,支持数据清洗、统计验证、样本筛选及自动化产出学术复现报告(Markdown 与 LaTeX)。
简介
paper-reproduce 技能为学术研究结果的重现提供了一套严谨且分阶段的实施框架。专为研究人员、数据科学家与学生设计,引导使用者完成整个复现工作流程,确保统计结果、变量定义与样本结构与原始文献相符。通过自动化的数据探索与验证技术,此技能降低了实证研究的「黑箱」程度,协助使用者识别并记录整合型数据集(harmonized datasets)与原始研究之间的偏差。
-
完整的管道支持:涵盖从初步数据探索、变量映射到最终统计分析与结果比对的全过程。
-
严谨的变量识别:包含语义搜索、值域验证及跨变量交叉核对等多步骤技术,以精确对齐问卷数据与论文描述。
-
系统化样本筛选:自动化处理样本排除流程,确保分析样本数与目标论文一致,并内建过程日志以确保透明度。
-
高阶统计分析:支持 OLS、稳健标准误 (HC3)、交互作用项及分层分析,提供标准化 Beta 系数以确保结果的可比性。
-
自动化文件产出:产生 Markdown 与 LaTeX/PDF 格式的专业学术报告,包含描述性统计表 (Table 1) 及回归分析表。
-
优先数据验证:在建立模型前,务必先行验证变量值域与均值;未与文献确认前,切勿假设变量映射是正确的。
-
偏差处理:整合型数据集与原始数据之间的差异是预料中的事;请使用提供的三级验证标记(验证、趋势一致、未复现)来记录这些差距。
-
输入需求:需提供原始数据档(Stata .dta, CSV, 或 SAS)以及参考文献(PDF 或方法论说明)。
-
输出结构:自动将脚本、分析日志与生成的报告整理至标准化目录结构中,确保复现过程本身的透明度与可重现性。
-
统计细节:注意标准误估计、类别变量编码以及子样本标准化协议,以避免系统性偏差。
仓库统计
- Star 数
- 703
- Fork 数
- 194
- Open Issue 数
- 6
- 主要语言
- TeX
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 07:29