数据分析
songsee avatar

songsee

使用 songsee CLI 工具从音频文件生成专业级频谱图、特征面板可视化及音频分析图表。

简介

songsee 技能为您的开发或数据分析工作流程提供高性能的音频可视化功能。作为命令行接口,它能将原始音频文件转换为丰富、具有洞察力的视觉表示,协助用户理解音频数据的频谱、节奏和纹理特性。无论您是在进行音乐信息检索 (MIR)、调试音频处理流水线,还是执行鉴识音频分析,songsee 都是可靠的视觉诊断工具。它原生支持包括 WAV 和 MP3 在内的标准格式,并透过 ffmpeg 提供更广泛的格式支持。

  • 支持多种可视化格式,包括频谱图、梅尔频谱图 (mel-spectrogram)、色度图 (chroma)、谐波-打击乐源分离 (hpss)、自相似矩阵、响度、节奏图 (tempogram)、MFCC 及频谱通量。

  • 可配置的视觉输出,提供包括 magma、inferno、viridis、classic 和灰阶等多种配色方案,满足研究或展示需求。

  • 精确的时间切片功能,允许用户通过定义开始时间和持续时间,提取并可视化音频文件的特定片段。

  • 灵活的输出自定义选项,包括可调整的 FFT 窗口/跳跃设置、频率范围筛选及输出尺寸。

  • 强大的命令行集成,支持文件输入与标准输入 (stdin) 管道,适用于自动化处理流程。

  • 支持的音频输入格式包括原生的 WAV/MP3 解码,若系统中检测到 ffmpeg,则会自动处理其他附加格式。

  • 当同时请求多种类型的可视化时,支持网格样式布局,方便进行全面的数据比较。

  • 极力推荐给研究人员与开发人员,特别是在处理 AI 音频代理、机器学习音频特征工程或一般音频分析任务时。

  • 若处理复杂或非标准音频编码,请确保已安装 ffmpeg 以确保广泛的兼容性。

  • 输出结果可保存为 PNG 或 JPG 等标准高质量图像格式,适合整合至报告或文档中。

仓库统计

Star 数
365,620
Fork 数
74,934
Open Issue 数
6,998
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 11:27
在 GitHub 查看