0

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf,需要运行 Hadoop / Spark 集群和运行 Kubernetis 集群。

现在我的问题是,为什么需要这个 Hadoop/Spark 集群?因为 SAP Vora 可以读取 HDFS、WebHDFS 等。

那么这仅仅是如果你有一个 Spark 作业,你可以在 Spark 集群上运行它,如果它需要来自 HANA / Vora 的数据,它可以访问它吗?或者 Vora 是否也使用 Spark 集群来处理数据?

因为现在看起来 Spark 可以使用 Vora 但不是 Vora 可以使用 Spark(Vora UI 工具,如 SQL 编辑器等)。因为您可以附加到 Vora 的 Zeppelin 仅用于可视化(据我了解,如果我错了,请纠正我)。

我的第二个问题是是否可以在 Hadoop / Spark 集群上使用 PySpark 与 Vora 而不仅仅是 Scala Spark 进行交互。

提前致谢。

4

1 回答 1

2

是的,您的假设是正确的:Spark 可以访问 Vora 2.1,但 Vora 2.1 不能与 Spark 交互,因此不需要 Hadoop/Spark 集群可用。但是,如果您没有 Hadoop,那么您必须有一个替代数据存储来从例如 S3、ADL 加载数据。

是的,可以使用 PySpark 与 Vora 进行交互。

于 2018-05-24T17:44:19.010 回答