databricks - 如何以特定顺序使用 Databricks dbutilis 复制文件

Question

该小组的一名成员帮助我根据日期将文件复制到关注者

我想调整代码以根据文件名中的某些字符复制文件——在下面的示例中，字符是 1111、1112、1113 和 1114 所以，如果我们有以下四个文件：

File_Account_1111_exam1.csv File_Account_1112_testxx.csv File_Account_1113_pringle.csv File_Account_1114_sam34.csv

仅当 File_Account_1113_pringle.csv 已复制到文件夹时，我才希望将 File_Account_1114_sam34.csv 复制到文件夹中。同样，如果 File_Account_1112_testxx.csv 已被复制到文件夹等，我只想复制 File_Account_1113_pringle.csv。

因此，如果所有文件都已复制到一个文件夹中，它将如下所示：

dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1111_exam1.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1112_testxx.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1113_pringle.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1114_sam34.csv", data, True)

score 1 · Accepted Answer

在将文件上传到 DBFS 时不要应用任何业务逻辑，我建议上传所有可用文件，然后使用它们读取它们，test = sc.wholeTextFiles("pathtofile")这将返回文件名和文件内容的键/值 RDD，这里是一个相应的线程。一旦完成，任何基于文件名的排序或过滤业务逻辑都可以在 Spark 作业中实现和测试。

我希望它会有所帮助。

databricks - 如何以特定顺序使用 Databricks dbutilis 复制文件

1 回答 1

Related

Reference