研究
paper-reproduce avatar

paper-reproduce

提供论文复现的系统性方法论,支持数据清洗、统计验证、样本筛选及自动化产出学术复现报告(Markdown 与 LaTeX)。

简介

paper-reproduce 技能为学术研究结果的重现提供了一套严谨且分阶段的实施框架。专为研究人员、数据科学家与学生设计,引导使用者完成整个复现工作流程,确保统计结果、变量定义与样本结构与原始文献相符。通过自动化的数据探索与验证技术,此技能降低了实证研究的「黑箱」程度,协助使用者识别并记录整合型数据集(harmonized datasets)与原始研究之间的偏差。

  • 完整的管道支持:涵盖从初步数据探索、变量映射到最终统计分析与结果比对的全过程。

  • 严谨的变量识别:包含语义搜索、值域验证及跨变量交叉核对等多步骤技术,以精确对齐问卷数据与论文描述。

  • 系统化样本筛选:自动化处理样本排除流程,确保分析样本数与目标论文一致,并内建过程日志以确保透明度。

  • 高阶统计分析:支持 OLS、稳健标准误 (HC3)、交互作用项及分层分析,提供标准化 Beta 系数以确保结果的可比性。

  • 自动化文件产出:产生 Markdown 与 LaTeX/PDF 格式的专业学术报告,包含描述性统计表 (Table 1) 及回归分析表。

  • 优先数据验证:在建立模型前,务必先行验证变量值域与均值;未与文献确认前,切勿假设变量映射是正确的。

  • 偏差处理:整合型数据集与原始数据之间的差异是预料中的事;请使用提供的三级验证标记(验证、趋势一致、未复现)来记录这些差距。

  • 输入需求:需提供原始数据档(Stata .dta, CSV, 或 SAS)以及参考文献(PDF 或方法论说明)。

  • 输出结构:自动将脚本、分析日志与生成的报告整理至标准化目录结构中,确保复现过程本身的透明度与可重现性。

  • 统计细节:注意标准误估计、类别变量编码以及子样本标准化协议,以避免系统性偏差。

仓库统计

Star 数
703
Fork 数
194
Open Issue 数
6
主要语言
TeX
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 07:29
在 GitHub 查看