研究
matchms avatar

matchms

用于质谱数据处理的 Python 工具包。支持质谱文件导入 (mzML, MGF, MSP)、元数据标准化、峰值过滤,以及代谢组学中的光谱相似度评分(余弦、修正余弦)计算。

简介

Matchms 是一个功能强大的开源 Python 库,专为质谱数据分析和代谢组学研究而设计。它提供了一个构建可重复分析流程的综合框架,使研究人员能够自动化处理质谱数据的清理、标准化和比对。该技能特别适合从事代谢物鉴定、光谱库搜索和大规模光谱聚类的科学家和生物信息学家。它通过内置的协调功能处理复杂的光谱元数据,确保下游统计分析基于一致的数据结构。

  • 为常见质谱格式提供先进的数据导入/导出功能,包括 mzML、mzXML、MGF、MSP、JSON 和 Pickle。

  • 全面的光谱过滤功能,包括峰值强度归一化、相对强度选择、前体峰去除和元数据验证。

  • 多种光谱相似度度量指标,如 CosineGreedy、ModifiedCosine、NeutralLossesCosine 和 FingerprintSimilarity,用于精确的化合物匹配。

  • 可定制的处理流程,允许用户将多个过滤器和相似度计算链接到顺序的、可重复的工作流中。

  • 原生支持从 SMILES 字符串导出化学注释,包括 InChI、InChIKey 和 Morgan 指纹。

  • 非常适合研究实验室中的代谢组学工作流、库搜索和光谱质量控制任务。

  • 输入通常涉及原始质谱数据文件或预处理后的峰值列表;输出包括相似度评分、过滤后的光谱对象和标准化的光谱数据集。

  • 高度灵活的集成:用户可以在 SpectrumProcessor 类中使用标准 Python 函数定义自定义过滤逻辑。

  • 限制:虽然它在代谢组学方面表现出色,但需要完整 LC-MS/MS 蛋白质组学流程的用户建议使用 pyopenms 库。

  • 性能提示:通过向量化的相似度评分操作和内存高效的光谱对象管理,支持对大型数据集的高效处理。

仓库统计

Star 数
19,802
Fork 数
2,209
Open Issue 数
41
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 16:39
在 GitHub 查看