read-file
使用 DuckDB 读取并分析任何数据文件 (CSV, JSON, Parquet, Avro, Excel 等) 或远程链接 (S3, HTTPS)。自动检测文件格式并进行数据概览与分析。
简介
read-file 技能利用 DuckDB 引擎的强大功能,让您能在开发环境中无缝地进行数据探索。专为需要快速检查、预览或分析数据集,但不想切换至专业数据库管理工具的数据分析师、工程师与研究人员所设计。透过 DuckDB 的高效向量化查询执行能力,此技能支援多种结构化与半结构化格式,包括 CSV、TSV、JSON、JSONL、Parquet、Avro、Excel (XLSX/XLS)、空间数据 (Shapefiles, GeoPackage)、SQLite 数据库以及 Jupyter Notebooks。
-
根据副档名自动推断文件格式,并立即提供结构描述、数据列数与数据样本概览。
-
支援直接存取本地文件与远程云端储存对象 (S3, GCS, Azure Blob, HTTP/HTTPS),并内置机密管理功能以确保凭证安全。
-
使用强大的 'read_any' 宏,将复杂的多格式输入简化为统一的 SQL 接口。
-
与其他 DuckDB 技能紧密整合,让您可以顺畅地从文件检查转换至进阶 SQL 查询、数据库挂载或数据转换。
-
使用方式为输入文件名或远程网址,并可视需求加入问题 (例如 'describe the data')。
-
若遇到特定格式错误,系统会自动建议安装缺失的扩展套件 (如 spatial 或 excel)。
-
非常适合进行快速的随选数据清理、健全性检查与探索性数据分析 (EDA)。
-
注意:此工具仅适用于数据文件,不适用于解析或分析源代码文件。若有大型或持续性的数据需求,建议使用 attach-db 技能以获得更佳的 session 状态管理。
仓库统计
- Star 数
- 436
- Fork 数
- 22
- Open Issue 数
- 2
- 主要语言
- Shell
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 09:52