資料分析
single-cell-rna-qc avatar

single-cell-rna-qc

基於 scverse 最佳實踐的自動化單細胞 RNA-seq 品質控制工具。支援 .h5ad 與 .h5 格式,提供 MAD 離群值檢測、細胞過濾及統計視覺化分析。

簡介

本工具提供一套標準化且自動化的單細胞 RNA-seq 品質控制 (QC) 工作流程,專為使用 scverse 生態系統(包含 scanpy 與 AnnData)的生物資訊研究人員設計。它適合需要處理 10X Genomics (.h5) 或已預處理 (.h5ad) 數據的資料科學家與研究者。透過集中化的最佳實踐方法,本技能有助於在執行標準化、集群分析或軌跡推斷等下游分析前,確保數據的品質與完整性。

  • 執行端到端的 QC 工作流程,計算總計數、檢測到的基因數量,以及粒線體、核糖體與血紅蛋白基因的表現比例。

  • 採用基於中位數絕對偏差 (MAD) 的過濾機制,動態識別並剔除低品質細胞或離群值,無需仰賴僵硬的固定閾值。

  • 自動產出詳細的視覺診斷報告,包括過濾前的分佈直方圖、閾值覆蓋圖以及過濾後的指標彙總,方便使用者評估數據清理的效果。

  • 支援模組化作業,使用者可選擇完整的自動化管線進行標準分析,或呼叫核心模組以執行針對特定實驗設計的客製化分析。

  • 整合 scanpy、anndata、numpy、scipy、matplotlib 與 seaborn 等標準生物資訊套件,確保高效的數據處理能力與高品質的圖表輸出。

  • 對於大多數使用者,建議直接使用提供的 qc_analysis.py 腳本執行完整自動化管線,該腳本可處理檔案讀取與閾值自動生成。

  • 輸入資料應為標準單細胞計數矩陣;若您的基因命名格式與標準人類或小鼠不同,請確保調整對應的基因模式參數。

  • 輸出結果會依數據集進行分類,建立清晰的過濾過程記錄,有助於研究重現性與方法學報告的撰寫。

  • 本技能具備高擴展性;若分析流程需要根據細胞類型或特定子集設定不同篩選條件,可直接匯入 qc_core 與 qc_plotting 模組,以維持對分析過程的細緻控制。

倉庫統計

Star 數
24
Fork 數
3
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午08:58
在 GitHub 查看