matchms
用于质谱数据处理的 Python 工具包。支持质谱文件导入 (mzML, MGF, MSP)、元数据标准化、峰值过滤,以及代谢组学中的光谱相似度评分(余弦、修正余弦)计算。
简介
Matchms 是一个功能强大的开源 Python 库,专为质谱数据分析和代谢组学研究而设计。它提供了一个构建可重复分析流程的综合框架,使研究人员能够自动化处理质谱数据的清理、标准化和比对。该技能特别适合从事代谢物鉴定、光谱库搜索和大规模光谱聚类的科学家和生物信息学家。它通过内置的协调功能处理复杂的光谱元数据,确保下游统计分析基于一致的数据结构。
-
为常见质谱格式提供先进的数据导入/导出功能,包括 mzML、mzXML、MGF、MSP、JSON 和 Pickle。
-
全面的光谱过滤功能,包括峰值强度归一化、相对强度选择、前体峰去除和元数据验证。
-
多种光谱相似度度量指标,如 CosineGreedy、ModifiedCosine、NeutralLossesCosine 和 FingerprintSimilarity,用于精确的化合物匹配。
-
可定制的处理流程,允许用户将多个过滤器和相似度计算链接到顺序的、可重复的工作流中。
-
原生支持从 SMILES 字符串导出化学注释,包括 InChI、InChIKey 和 Morgan 指纹。
-
非常适合研究实验室中的代谢组学工作流、库搜索和光谱质量控制任务。
-
输入通常涉及原始质谱数据文件或预处理后的峰值列表;输出包括相似度评分、过滤后的光谱对象和标准化的光谱数据集。
-
高度灵活的集成:用户可以在 SpectrumProcessor 类中使用标准 Python 函数定义自定义过滤逻辑。
-
限制:虽然它在代谢组学方面表现出色,但需要完整 LC-MS/MS 蛋白质组学流程的用户建议使用 pyopenms 库。
-
性能提示:通过向量化的相似度评分操作和内存高效的光谱对象管理,支持对大型数据集的高效处理。
仓库统计
- Star 数
- 19,802
- Fork 数
- 2,209
- Open Issue 数
- 41
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 16:39