資料分析
read-file avatar

read-file

使用 DuckDB 讀取並分析任何資料檔案 (CSV, JSON, Parquet, Avro, Excel 等) 或遠端連結 (S3, HTTPS)。自動偵測檔案格式並進行資料概覽與分析。

簡介

read-file 技能利用 DuckDB 引擎的強大功能,讓您能在開發環境中無縫地進行資料探索。專為需要快速檢查、預覽或分析資料集,但不想切換至專業資料庫管理工具的資料分析師、工程師與研究人員所設計。透過 DuckDB 的高效向量化查詢執行能力,此技能支援多種結構化與半結構化格式,包括 CSV、TSV、JSON、JSONL、Parquet、Avro、Excel (XLSX/XLS)、空間資料 (Shapefiles, GeoPackage)、SQLite 資料庫以及 Jupyter Notebooks。

  • 根據副檔名自動推斷檔案格式,並立即提供結構描述、資料列數與資料樣本概覽。

  • 支援直接存取本機檔案與遠端雲端儲存物件 (S3, GCS, Azure Blob, HTTP/HTTPS),並內建機密管理功能以確保憑證安全。

  • 使用強大的 'read_any' 巨集,將複雜的多格式輸入簡化為統一的 SQL 介面。

  • 與其他 DuckDB 技能緊密整合,讓您可以順暢地從檔案檢查轉換至進階 SQL 查詢、資料庫掛載或資料轉換。

  • 使用方式為輸入檔案名稱或遠端網址,並可視需求加入問題 (例如 'describe the data')。

  • 若遇到特定格式錯誤,系統會自動建議安裝缺失的擴充套件 (如 spatial 或 excel)。

  • 非常適合進行快速的隨選資料清理、健全性檢查與探索性資料分析 (EDA)。

  • 注意:此工具僅適用於資料檔案,不適用於解析或分析原始碼檔案。若有大型或持續性的資料需求,建議使用 attach-db 技能以獲得更佳的 session 狀態管理。

倉庫統計

Star 數
436
Fork 數
22
Open Issue 數
2
主要語言
Shell
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月1日 上午09:52
在 GitHub 查看