我有一个目录,其中包含 10,000 多个具有相同架构的文件。
因为加载和扫描所有文件非常耗时,所以我希望随意只加载这些文件的一部分。
例如,文件列表是1.csv, 2.csv,......,1000.csv
.
我想知道是否有办法只加载1.csv, 10.csv, 97.csv,...
(文件是随机挑选的),这样我就可以避免扫描所有文件。
谢谢!
我有一个目录,其中包含 10,000 多个具有相同架构的文件。
因为加载和扫描所有文件非常耗时,所以我希望随意只加载这些文件的一部分。
例如,文件列表是1.csv, 2.csv,......,1000.csv
.
我想知道是否有办法只加载1.csv, 10.csv, 97.csv,...
(文件是随机挑选的),这样我就可以避免扫描所有文件。
谢谢!
您可以将文件名列表传递给 csv 阅读器。
例如
# you'll need full paths here unless the files are in your working directory
filelist = ['1.csv', '10.csv', '97.csv']
df = spark.read.csv(filelist)
在 Scala 中会是
val filelist = Seq("1.csv", "10.csv", "97.csv")
val df = spark.read.csv(filelist: _*)