0

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,并且我在单独的 VM 上运行了一个独立安装的 Cassandra。我想安装 Datastax spark-cassandra 连接器,这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点 ?

连接器可以在这里下载:

https://github.com/datastax/spark-cassandra-connector

关于构建的说明在这里: https ://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md

需要 sbt 来构建它。

我在哪里可以找到 DataProc 安装的 sbt?

它会在 $SPARK_HOME/bin 下吗?为 DataProc 安装 spark 的位置在哪里?

4

1 回答 1

0

我将跟进@angus-davis 不久前发表的非常有用的评论。

我在哪里可以找到 DataProc 安装的 sbt?

目前, Cloud Dataproc集群中不包含 sbt。sbt 文档包含有关如何手动安装 sbt的信息。如果您需要在集群上重新安装 sbt,我强烈建议您在创建集群时创建一个init 操作来安装 sbt。经过一些研究,看起来 SBT 包含在 BSD-3 许可下,这意味着我们可能(不保证)可以将它包含在 Cloud Dataproc 集群中。

它会在 $SPARK_HOME/bin 下吗?为 DataProc 安装 spark 的位置在哪里?

答案是取决于你的意思。

  • 二进制文件 -/usr/bin
  • 配置 -/etc/spark/conf
  • spark_home -/usr/lib/spark

重要的是,同样的模式也用于安装在 Cloud Dataproc 集群上的其他主要 OSS 组件,例如 Hadoop 和 Hive。

我想安装 Datastax spark-cassandra 连接器,这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点 ?

Angus 发送的Stack Overflow答案可能是最简单的方法,如果它可以用作 Spark 包的话。然而,根据我能找到的,这可能不是一个选择。这意味着您将需要安装 sbt 并手动安装。

于 2016-01-15T01:54:11.143 回答