apache-spark - 谁在 Spache Spark 中将分区加载到 RAM 中？

Question

我有这个问题，我无法在任何地方找到答案。

我正在使用以下行在 PySpark 应用程序中加载数据：

loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile)

我的集群配置如下：

在 Apache Spark Standalone 中，将分区加载到 RAM 的过程如何？

这些都不是，我在这里遗漏了一些东西吗？我怎样才能亲眼目睹这个过程（监控工具、unix 命令、Spark 中的某个地方）？

任何我可以深入了解的评论或资源都会非常有帮助。提前致谢。

score 0 · Accepted Answer

第二种情况是正确的：

每个执行程序访问存储并加载到自己的 RAM？（存储 --> 执行者的 RAM）

1 回答 1