single-cell-rna-qc
基於 scverse 最佳實踐的自動化單細胞 RNA-seq 品質控制工具。支援 .h5ad 與 .h5 格式,提供 MAD 離群值檢測、細胞過濾及統計視覺化分析。
簡介
本工具提供一套標準化且自動化的單細胞 RNA-seq 品質控制 (QC) 工作流程,專為使用 scverse 生態系統(包含 scanpy 與 AnnData)的生物資訊研究人員設計。它適合需要處理 10X Genomics (.h5) 或已預處理 (.h5ad) 數據的資料科學家與研究者。透過集中化的最佳實踐方法,本技能有助於在執行標準化、集群分析或軌跡推斷等下游分析前,確保數據的品質與完整性。
-
執行端到端的 QC 工作流程,計算總計數、檢測到的基因數量,以及粒線體、核糖體與血紅蛋白基因的表現比例。
-
採用基於中位數絕對偏差 (MAD) 的過濾機制,動態識別並剔除低品質細胞或離群值,無需仰賴僵硬的固定閾值。
-
自動產出詳細的視覺診斷報告,包括過濾前的分佈直方圖、閾值覆蓋圖以及過濾後的指標彙總,方便使用者評估數據清理的效果。
-
支援模組化作業,使用者可選擇完整的自動化管線進行標準分析,或呼叫核心模組以執行針對特定實驗設計的客製化分析。
-
整合 scanpy、anndata、numpy、scipy、matplotlib 與 seaborn 等標準生物資訊套件,確保高效的數據處理能力與高品質的圖表輸出。
-
對於大多數使用者,建議直接使用提供的 qc_analysis.py 腳本執行完整自動化管線,該腳本可處理檔案讀取與閾值自動生成。
-
輸入資料應為標準單細胞計數矩陣;若您的基因命名格式與標準人類或小鼠不同,請確保調整對應的基因模式參數。
-
輸出結果會依數據集進行分類,建立清晰的過濾過程記錄,有助於研究重現性與方法學報告的撰寫。
-
本技能具備高擴展性;若分析流程需要根據細胞類型或特定子集設定不同篩選條件,可直接匯入 qc_core 與 qc_plotting 模組,以維持對分析過程的細緻控制。
倉庫統計
- Star 數
- 24
- Fork 數
- 3
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午08:58