我有一个关于 RDD 访问控制的问题。
有一个数据只能保存在给定的服务器(或它们的列表)中,不允许原始数据离开它。数据可以通过某些map
功能进行处理,然后才能进一步传输。
Spark 或受支持的集群管理解决方案(例如 Mesos)中是否有任何功能?
我有一个关于 RDD 访问控制的问题。
有一个数据只能保存在给定的服务器(或它们的列表)中,不允许原始数据离开它。数据可以通过某些map
功能进行处理,然后才能进一步传输。
Spark 或受支持的集群管理解决方案(例如 Mesos)中是否有任何功能?
A HadoopRDD
(sc.textFile
例如使用)具有位于具有文件数据的机器上的亲和力。(见HadoopRDD.getPreferredLocations
。)map
然后在同一台机器上执行。
但这并不能保证原始数据不会离开机器。例如,如果机器上的 Spark 工作人员死了,那么另一个工作人员将从另一台机器上加载它。
我认为安全的选择是在“安全”机器上运行一个 Spark 集群(或其他处理系统),map
在该集群中执行该步骤,并将结果写入在“不安全”机器上运行的 HDFS(或其他存储系统) “机器。然后在“不安全”机器上运行的单独 Spark 集群可以处理数据。