apache-spark - Spark RDD 访问限制和集群内的位置

Question

我有一个关于 RDD 访问控制的问题。

有一个数据只能保存在给定的服务器（或它们的列表）中，不允许原始数据离开它。数据可以通过某些map功能进行处理，然后才能进一步传输。

Spark 或受支持的集群管理解决方案（例如 Mesos）中是否有任何功能？

score 1 · Accepted Answer

A HadoopRDD（sc.textFile例如使用）具有位于具有文件数据的机器上的亲和力。（见HadoopRDD.getPreferredLocations。）map然后在同一台机器上执行。

但这并不能保证原始数据不会离开机器。例如，如果机器上的 Spark 工作人员死了，那么另一个工作人员将从另一台机器上加载它。

我认为安全的选择是在“安全”机器上运行一个 Spark 集群（或其他处理系统），map在该集群中执行该步骤，并将结果写入在“不安全”机器上运行的 HDFS（或其他存储系统） “机器。然后在“不安全”机器上运行的单独 Spark 集群可以处理数据。

1 回答 1