apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群？可以使用 PySpark 吗？

Question

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要运行 Hadoop / Spark 集群和运行 Kubernetis 集群。

现在我的问题是，为什么需要这个 Hadoop/Spark 集群？因为 SAP Vora 可以读取 HDFS、WebHDFS 等。

那么这仅仅是如果你有一个 Spark 作业，你可以在 Spark 集群上运行它，如果它需要来自 HANA / Vora 的数据，它可以访问它吗？或者 Vora 是否也使用 Spark 集群来处理数据？

因为现在看起来 Spark 可以使用 Vora 但不是 Vora 可以使用 Spark（Vora UI 工具，如 SQL 编辑器等）。因为您可以附加到 Vora 的 Zeppelin 仅用于可视化（据我了解，如果我错了，请纠正我）。

我的第二个问题是是否可以在 Hadoop / Spark 集群上使用 PySpark 与 Vora 而不仅仅是 Scala Spark 进行交互。

提前致谢。

score 2 · Accepted Answer

是的，您的假设是正确的：Spark 可以访问 Vora 2.1，但 Vora 2.1 不能与 Spark 交互，因此不需要 Hadoop/Spark 集群可用。但是，如果您没有 Hadoop，那么您必须有一个替代数据存储来从例如 S3、ADL 加载数据。

是的，可以使用 PySpark 与 Vora 进行交互。

1 回答 1