我需要处理远程服务器上数千个文件中的 10TB 文本。我想在具有 3GB RAM、50GB HDD 的本地机器上处理它们。我需要一个抽象层来按需从远程服务器下载文件,处理它们(mapreduce)然后丢弃它们,加载更多文件。
关于 HDFS,我需要将它们加载到 HDFS,然后事情应该很简单,但我需要自己进行内存管理。我想要一些能解决这个问题的东西。类似于 HDFS 中的远程链接,或 HDFS 中指向远程文件的符号链接,该远程文件下载它们并将它们加载到内存中,然后处理它们然后丢弃它们,然后转移到更多文件。
所以现在我使用 Amplab spark 为我做并行处理,但在这个处理级别上它放弃了。
我想要一个像火花这样的衬里:
myFilesRDD.map(...).reduce(...)
RDD应该照顾它