csv - SnappyData 将数据从多个 csv 文件导入列或行表

Question

我是 SnappyData 的新手，我正在尝试将大量数据导入其中。因此，数据是从不同的来源创建的，并以 csv 文件的形式存储到每个位置的 zip 文件中。假设 zip 的结构是 zip1、zip2... zipn，每个 zip 包含完全相同的（header.csv、detail1.csv、detail2.csv、... detail15.csv）每个 .csv 具有相同的结构，这意味着来自 zip1 的 detail5.csv 与来自 zipn 的 detail5.csv 具有相同的列。所以我的问题是如何自动化导入？这样一堆数据有导入命令吗？第一次很容易，因为我使用创建外部表，但是如何导入其余的 idata？或者，更好的是，我如何将所有数据导入列（因为我们有很多数据）或行（因为我们可以根据数据来自的位置对数据进行分区）表？

score 0 · Accepted Answer

导入 CSV 的最快方法是使用 DataframeReader 中对 CSV 的内置 spark 支持。Afaik，不支持您需要的自定义级别。但是，您可以轻松地运行 snappy-job 以在这些存档文件中选择具有相同架构的文件并使用并行读取org.apache.spark.sql.DataFrameReader.csv

csv - SnappyData 将数据从多个 csv 文件导入列或行表

1 回答 1

Related

Reference