1

我是 SnappyData 的新手,我正在尝试将大量数据导入其中。因此,数据是从不同的来源创建的,并以 csv 文件的形式存储到每个位置的 zip 文件中。假设 zip 的结构是 zip1、zip2... zipn,每个 zip 包含完全相同的(header.csv、detail1.csv、detail2.csv、... detail15.csv)每个 .csv 具有相同的结构,这意味着来自 zip1 的 detail5.csv 与来自 zipn 的 detail5.csv 具有相同的列。所以我的问题是如何自动化导入?这样一堆数据有导入命令吗?第一次很容易,因为我使用创建外部表,但是如何导入其余的 idata?或者,更好的是,我如何将所有数据导入列(因为我们有很多数据)或行(因为我们可以根据数据来自的位置对数据进行分区)表?

4

1 回答 1

0

导入 CSV 的最快方法是使用 DataframeReader 中对 CSV 的内置 spark 支持。Afaik,不支持您需要的自定义级别。但是,您可以轻松地运行 snappy-job 以在这些存档文件中选择具有相同架构的文件并使用并行读取org.apache.spark.sql.DataFrameReader.csv

于 2017-06-30T04:43:58.083 回答