0

我有一个目录,其中包含 10,000 多个具有相同架构的文件。

因为加载和扫描所有文件非常耗时,所以我希望随意只加载这些文件的一部分。

例如,文件列表是1.csv, 2.csv,......,1000.csv.

我想知道是否有办法只加载1.csv, 10.csv, 97.csv,...(文件是随机挑选的),这样我就可以避免扫描所有文件。

谢谢!

4

1 回答 1

1

您可以将文件名列表传递给 csv 阅读器。

例如

# you'll need full paths here unless the files are in your working directory
filelist = ['1.csv', '10.csv', '97.csv']   
df = spark.read.csv(filelist)

在 Scala 中会是

val filelist = Seq("1.csv", "10.csv", "97.csv")
val df = spark.read.csv(filelist: _*)
于 2021-01-05T09:05:16.060 回答