single-cell-rna-qc
基于 scverse 最佳实践的自动化单细胞 RNA-seq 质量控制工具。支持 .h5ad 与 .h5 格式,提供 MAD 离群值检测、细胞过滤及统计可视化分析。
简介
本工具提供一套标准化且自动化的单细胞 RNA-seq 质量控制 (QC) 工作流程,专为使用 scverse 生态系统(包含 scanpy 与 AnnData)的生物信息研究人员设计。它适合需要处理 10X Genomics (.h5) 或已预处理 (.h5ad) 数据的数据科学家与研究者。通过集中化的最佳实践方法,本技能有助于在执行标准化、聚类分析或轨迹推断等下游分析前,确保数据的质量与完整性。
-
执行端到端的 QC 工作流程,计算总计数、检测到的基因数量,以及线粒体、核糖体与血红蛋白基因的表达比例。
-
采用基于中位数绝对偏差 (MAD) 的过滤机制,动态识别并剔除低质量细胞或离群值,无需仰赖僵硬的固定阈值。
-
自动产出详细的视觉诊断报告,包括过滤前的分布直方图、阈值覆盖图以及过滤后的指标汇总,方便用户评估数据清理的效果。
-
支持模块化作业,用户可选择完整的自动化管线进行标准分析,或调用核心模块以执行针对特定实验设计的定制化分析。
-
整合 scanpy、anndata、numpy、scipy、matplotlib 与 seaborn 等标准生物信息套件,确保高效的数据处理能力与高质量的图表输出。
-
对于大多数用户,建议直接使用提供的 qc_analysis.py 脚本执行完整自动化管线,该脚本可处理文件读取与阈值自动生成。
-
输入数据应为标准单细胞计数矩阵;若您的基因命名格式与标准人类或小鼠不同,请确保调整对应的基因模式参数。
-
输出结果会依数据集进行分类,建立清晰的过滤过程记录,有助于研究可重复性与方法学报告的撰写。
-
本技能具备高扩展性;若分析流程需要根据细胞类型或特定子集设定不同筛选条件,可直接导入 qc_core 与 qc_plotting 模块,以维持对分析过程的细致控制。
仓库统计
- Star 数
- 24
- Fork 数
- 3
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 20:58