有没有办法将文件列表从 S3 复制到 hdfs而不是使用 s3distcp 的完整文件夹?这是 srcPattern 无法工作的时候。
我在 s3 文件夹中有多个文件,它们都有不同的名称。我只想将特定文件复制到 hdfs 目录。我没有找到任何方法来指定 s3distcp 的多个源文件路径。
我目前使用的解决方法是告诉 srcPattern 中的所有文件名
hadoop jar s3distcp.jar
--src s3n://bucket/src_folder/
--dest hdfs:///test/output/
--srcPattern '.*somefile.*|.*anotherone.*'
当文件数量太多时,这个东西可以工作吗?大约10 000?