matchms
用於質譜數據處理的 Python 工具包。支援質譜文件導入 (mzML, MGF, MSP)、元數據標準化、峰值過濾,以及代謝組學中的光譜相似度評分(餘弦、修正餘弦)計算。
簡介
Matchms 是一個功能強大的開源 Python 庫,專為質譜數據分析和代謝組學研究而設計。它提供了一個構建可重複分析流程的綜合框架,使研究人員能夠自動化處理質譜數據的清理、標準化和比對。該技能特別適合從事代謝物鑑定、光譜庫搜索和大規模光譜聚類的科學家和生物信息學家。它通過內置的協調功能處理複雜的光譜元數據,確保下游統計分析基於一致的數據結構。
-
為常見質譜格式提供先進的數據導入/導出功能,包括 mzML、mzXML、MGF、MSP、JSON 和 Pickle。
-
全面的光譜過濾功能,包括峰值強度歸一化、相對強度選擇、前體峰去除和元數據驗證。
-
多種光譜相似度度量指標,如 CosineGreedy、ModifiedCosine、NeutralLossesCosine 和 FingerprintSimilarity,用於精確的化合物匹配。
-
可定製的處理流程,允許用戶將多個過濾器和相似度計算鏈接到順序的、可重複的工作流中。
-
原生支援從 SMILES 字串導出化學註釋,包括 InChI、InChIKey 和 Morgan 指紋。
-
非常適合研究實驗室中的代謝組學工作流、庫搜索和光譜質量控制任務。
-
輸入通常涉及原始質譜數據文件或預處理後的峰值列表;輸出包括相似度評分、過濾後的光譜對象和標準化的光譜數據集。
-
高度靈活的集成:用戶可以在 SpectrumProcessor 類中使用標準 Python 函數定義自定義過濾邏輯。
-
限制:雖然它在代謝組學方面表現出色,但需要完整 LC-MS/MS 蛋白質組學流程的用戶建議使用 pyopenms 庫。
-
性能提示:通過向量化的相似度評分操作和內存高效的光譜對象管理,支援對大型數據集的高效處理。
倉庫統計
- Star 數
- 19,802
- Fork 數
- 2,209
- Open Issue 數
- 41
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 下午04:39