-1

该小组的一名成员帮助我根据日期将文件复制到关注者

根据日期复制

我想调整代码以根据文件名中的某些字符复制文件——在下面的示例中,字符是 1111、1112、1113 和 1114 所以,如果我们有以下四个文件:

File_Account_1111_exam1.csv File_Account_1112_testxx.csv File_Account_1113_pringle.csv File_Account_1114_sam34.csv

仅当 File_Account_1113_pringle.csv 已复制到文件夹时,我才希望将 File_Account_1114_sam34.csv 复制到文件夹中。同样,如果 File_Account_1112_testxx.csv 已被复制到文件夹等,我只想复制 File_Account_1113_pringle.csv。

因此,如果所有文件都已复制到一个文件夹中,它将如下所示:

dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1111_exam1.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1112_testxx.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1113_pringle.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1114_sam34.csv", data, True)
4

1 回答 1

1

在将文件上传到 DBFS 时不要应用任何业务逻辑,我建议上传所有可用文件,然后使用它们读取它们,test = sc.wholeTextFiles("pathtofile")这将返回文件名和文件内容的键/值 RDD,这里是一个相应的线程。一旦完成,任何基于文件名的排序或过滤业务逻辑都可以在 Spark 作业中实现和测试。

我希望它会有所帮助。

于 2019-01-13T19:18:15.857 回答