python - 从 Pyspark 数据帧中包含 100 个文件的目录中仅加载前几个 .XML 文件（例如 10 个 xml）

问问题 2021-04-07T13:47:02.917

49 次

我想从包含 100 个文件的目录中加载每次迭代中的前 10 个 XML 文件，并将已经读取的 XML 文件删除到另一个目录。

到目前为止我在 pyspark 中所做的尝试。

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我收到一个错误：IllegalArgumentException: 'path' must be specified for XML data。

将XML文件的完整路径存储在列表中后，有什么方法可以读取文件吗？或者请提出另一种方法。

python - 从 Pyspark 数据帧中包含 100 个文件的目录中仅加载前几个 .XML 文件（例如 10 个 xml）

0 回答 0

Related

Reference