paper-reproduce

简介

paper-reproduce 技能为学术研究结果的重现提供了一套严谨且分阶段的实施框架。专为研究人员、数据科学家与学生设计，引导使用者完成整个复现工作流程，确保统计结果、变量定义与样本结构与原始文献相符。通过自动化的数据探索与验证技术，此技能降低了实证研究的「黑箱」程度，协助使用者识别并记录整合型数据集（harmonized datasets）与原始研究之间的偏差。

完整的管道支持：涵盖从初步数据探索、变量映射到最终统计分析与结果比对的全过程。
严谨的变量识别：包含语义搜索、值域验证及跨变量交叉核对等多步骤技术，以精确对齐问卷数据与论文描述。
系统化样本筛选：自动化处理样本排除流程，确保分析样本数与目标论文一致，并内建过程日志以确保透明度。
高阶统计分析：支持 OLS、稳健标准误 (HC3)、交互作用项及分层分析，提供标准化 Beta 系数以确保结果的可比性。
自动化文件产出：产生 Markdown 与 LaTeX/PDF 格式的专业学术报告，包含描述性统计表 (Table 1) 及回归分析表。
优先数据验证：在建立模型前，务必先行验证变量值域与均值；未与文献确认前，切勿假设变量映射是正确的。
偏差处理：整合型数据集与原始数据之间的差异是预料中的事；请使用提供的三级验证标记（验证、趋势一致、未复现）来记录这些差距。
输入需求：需提供原始数据档（Stata .dta, CSV, 或 SAS）以及参考文献（PDF 或方法论说明）。
输出结构：自动将脚本、分析日志与生成的报告整理至标准化目录结构中，确保复现过程本身的透明度与可重现性。
统计细节：注意标准误估计、类别变量编码以及子样本标准化协议，以避免系统性偏差。

创业课程

在线课程

实体课程

简介

仓库统计