0

我有一个关于 RDD 访问控制的问题。

有一个数据只能保存在给定的服务器(或它们的列表)中,不允许原始数据离开它。数据可以通过某些map功能进行处理,然后才能进一步传输。

Spark 或受支持的集群管理解决方案(例如 Mesos)中是否有任何功能?

4

1 回答 1

1

A HadoopRDDsc.textFile例如使用)具有位于具有文件数据的机器上的亲和力。(见HadoopRDD.getPreferredLocations。)map然后在同一台机器上执行。

但这并不能保证原始数据不会离开机器。例如,如果机器上的 Spark 工作人员死了,那么另一个工作人员将从另一台机器上加载它。

我认为安全的选择是在“安全”机器上运行一个 Spark 集群(或其他处理系统),map在该集群中执行该步骤,并将结果写入在“不安全”机器上运行的 HDFS(或其他存储系统) “机器。然后在“不安全”机器上运行的单独 Spark 集群可以处理数据。

于 2015-05-05T09:49:36.267 回答