数据分析
single-cell-rna-qc avatar

single-cell-rna-qc

基于 scverse 最佳实践的自动化单细胞 RNA-seq 质量控制工具。支持 .h5ad 与 .h5 格式,提供 MAD 离群值检测、细胞过滤及统计可视化分析。

简介

本工具提供一套标准化且自动化的单细胞 RNA-seq 质量控制 (QC) 工作流程,专为使用 scverse 生态系统(包含 scanpy 与 AnnData)的生物信息研究人员设计。它适合需要处理 10X Genomics (.h5) 或已预处理 (.h5ad) 数据的数据科学家与研究者。通过集中化的最佳实践方法,本技能有助于在执行标准化、聚类分析或轨迹推断等下游分析前,确保数据的质量与完整性。

  • 执行端到端的 QC 工作流程,计算总计数、检测到的基因数量,以及线粒体、核糖体与血红蛋白基因的表达比例。

  • 采用基于中位数绝对偏差 (MAD) 的过滤机制,动态识别并剔除低质量细胞或离群值,无需仰赖僵硬的固定阈值。

  • 自动产出详细的视觉诊断报告,包括过滤前的分布直方图、阈值覆盖图以及过滤后的指标汇总,方便用户评估数据清理的效果。

  • 支持模块化作业,用户可选择完整的自动化管线进行标准分析,或调用核心模块以执行针对特定实验设计的定制化分析。

  • 整合 scanpy、anndata、numpy、scipy、matplotlib 与 seaborn 等标准生物信息套件,确保高效的数据处理能力与高质量的图表输出。

  • 对于大多数用户,建议直接使用提供的 qc_analysis.py 脚本执行完整自动化管线,该脚本可处理文件读取与阈值自动生成。

  • 输入数据应为标准单细胞计数矩阵;若您的基因命名格式与标准人类或小鼠不同,请确保调整对应的基因模式参数。

  • 输出结果会依数据集进行分类,建立清晰的过滤过程记录,有助于研究可重复性与方法学报告的撰写。

  • 本技能具备高扩展性;若分析流程需要根据细胞类型或特定子集设定不同筛选条件,可直接导入 qc_core 与 qc_plotting 模块,以维持对分析过程的细致控制。

仓库统计

Star 数
24
Fork 数
3
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 20:58
在 GitHub 查看