数据分析
read-file avatar

read-file

使用 DuckDB 读取并分析任何数据文件 (CSV, JSON, Parquet, Avro, Excel 等) 或远程链接 (S3, HTTPS)。自动检测文件格式并进行数据概览与分析。

简介

read-file 技能利用 DuckDB 引擎的强大功能,让您能在开发环境中无缝地进行数据探索。专为需要快速检查、预览或分析数据集,但不想切换至专业数据库管理工具的数据分析师、工程师与研究人员所设计。透过 DuckDB 的高效向量化查询执行能力,此技能支援多种结构化与半结构化格式,包括 CSV、TSV、JSON、JSONL、Parquet、Avro、Excel (XLSX/XLS)、空间数据 (Shapefiles, GeoPackage)、SQLite 数据库以及 Jupyter Notebooks。

  • 根据副档名自动推断文件格式,并立即提供结构描述、数据列数与数据样本概览。

  • 支援直接存取本地文件与远程云端储存对象 (S3, GCS, Azure Blob, HTTP/HTTPS),并内置机密管理功能以确保凭证安全。

  • 使用强大的 'read_any' 宏,将复杂的多格式输入简化为统一的 SQL 接口。

  • 与其他 DuckDB 技能紧密整合,让您可以顺畅地从文件检查转换至进阶 SQL 查询、数据库挂载或数据转换。

  • 使用方式为输入文件名或远程网址,并可视需求加入问题 (例如 'describe the data')。

  • 若遇到特定格式错误,系统会自动建议安装缺失的扩展套件 (如 spatial 或 excel)。

  • 非常适合进行快速的随选数据清理、健全性检查与探索性数据分析 (EDA)。

  • 注意:此工具仅适用于数据文件,不适用于解析或分析源代码文件。若有大型或持续性的数据需求,建议使用 attach-db 技能以获得更佳的 session 状态管理。

仓库统计

Star 数
436
Fork 数
22
Open Issue 数
2
主要语言
Shell
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 09:52
在 GitHub 查看