apache-spark - spark如何仅加载目录中的部分文件？

Question

我有一个目录，其中包含 10,000 多个具有相同架构的文件。

因为加载和扫描所有文件非常耗时，所以我希望随意只加载这些文件的一部分。

例如，文件列表是1.csv, 2.csv,......,1000.csv.

我想知道是否有办法只加载1.csv, 10.csv, 97.csv,...（文件是随机挑选的），这样我就可以避免扫描所有文件。

谢谢！

score 1 · Accepted Answer

您可以将文件名列表传递给 csv 阅读器。

例如

# you'll need full paths here unless the files are in your working directory
filelist = ['1.csv', '10.csv', '97.csv']   
df = spark.read.csv(filelist)

在 Scala 中会是

val filelist = Seq("1.csv", "10.csv", "97.csv")
val df = spark.read.csv(filelist: _*)

apache-spark - spark如何仅加载目录中的部分文件？

1 回答 1

Related

Reference