java - 在集群上运行 Apache Spark 应用程序时是否可以缓存应用程序 jar？

Question

我有一个 Apache Spark MLlib Java 应用程序，它应该在具有不同输入值的集群上运行很多次。是否可以将应用程序jar缓存在集群上并重复使用以减少启动时间、网络负载和组件耦合？

使用的集群管理器有什么不同吗？

如果应用程序 jar 被缓存，是否可以在我的应用程序的不同实例中使用相同的 RDD 缓存？

score 3 · Accepted Answer

Vainilla Spark 无法做到这一点（在撰写本文时 - Spark 正在快速发展）。

有一个由 Ooyala 提供的 Spark-JobServer 可以完全满足您的需求。它在 jars 中保存一个寄存器以用于顺序提交作业，并提供额外的设施来按名称缓存 RDD。请注意，在 Spark 集群上，Spark-JobServer 充当 Spark 驱动程序。在执行给定任务时，工作人员仍然需要从驱动程序加载 jars。

在此处查看文档：https ://github.com/ooyala/spark-jobserver

java - 在集群上运行 Apache Spark 应用程序时是否可以缓存应用程序 jar？

1 回答 1

Related

Reference