问题标签 [spark-cassandra-connector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4709 浏览

java - Spark-将 JavaRDD 保存到 Cassandra

链接显示了一种以这种方式保存JavaRDDCassandra的方法:

com.datastax.spark.connector.CassandraJavaUtil.*似乎已弃用。更新后的 API 应该是:

有人可以告诉我一些代码来存储JavaRDD使用Cassandra上面更新的 API 吗?

0 投票
1 回答
1043 浏览

java - 使用 datastax spark-cassandra java 连接器运行 spark 和 cassandra 时出错

使用 spark-cassandra 连接器时出现以下错误:

我的代码:

我试图用谷歌搜索这个问题,发现它可以通过使用兼容的 scala 版本来解决。但我正在使用 java 连接器。

如何解决这个问题?

谢谢。

0 投票
1 回答
1225 浏览

apache-spark - 将RDD保存到Cassandra时如何自定义列映射?

我正在使用 Java 编写 Spark 应用程序。如果我有一个自定义元组,假设类“Person”。

我有一个

现在我想把它保存到 Cassandra。

假设我在 Cassandra 中有一个名为“people”的表,其中包含“name1”、“name2”和“name3”、“name4”、...、“name10”三列。根据教程,默认的列映射使用以下代码:

这将使用默认的列映射,例如:

但是我想自定义列映射,新的映射是这样的:

甚至我想丢弃 Person.name2

无论如何,我想知道是否有办法覆盖或替换默认的 RowWriter?
我应该怎么做才能修改列映射?
我找不到任何关于 Java 中自定义列映射的好材料。

0 投票
1 回答
175 浏览

scala - Scala 程序没有看到通过 SBT 下载的依赖项

我正在编写一个脚本来尝试让 Cassandra 和 Spark 一起工作,但我什至无法编译该程序。我使用 SBT 作为构建工具,并且我拥有声明的程序所需的所有依赖项。我第一次运行 sbt run 它下载了依赖项,但是当它开始编译如下所示的 scala 代码时会出现错误:

这是 SBT 构建文件

这是实际的 Scala 程序

这是我的目录结构

0 投票
1 回答
2929 浏览

apache-spark - 任务在火花中有一个不可序列化的结果

我正在尝试使用 cassandra 驱动程序读取 cassandra 表。这是代码。

但我得到了异常任务有一个不可序列化的结果。

如何解决这个问题?

0 投票
1 回答
1215 浏览

scala - Spark Cassandra SQL 无法对查询结果执行 DataFrame 方法

所以我有一个 Spark-Cassandra 集群,我试图在上面执行 sql 查询。我用 sbt 组件构建了一个 jar,然后用 spark-submit 提交它。当我不使用 spark-sql 时,这可以正常工作。当我使用 spark sql 时出现错误,以下是输出:

这是这项工作的scala代码,非常简单:

如您所见,spark 使用 sc.cassandraTable("test", "kv") 成功创建了一个 rdd,它能够获取计数、第一个值和总和。

当我运行 sql 查询时,我试图在 cqlsh 上运行 spark-sql,这是我得到的结果:

这是 build.sbt 文件,一个包含 spark-cassandra-connector 的胖 jar 被保存在 lib 文件夹中,因此它被 sbt 作为 unmanagedDependancy 自动添加到类路径中(我不认为构建文件是考虑的问题我已经成功地创建了一个基于 C* 表的 rdd 并在其上使用了方法)

0 投票
1 回答
540 浏览

cassandra - 使用 spark-cassandra 连接器运行 spark 应用程序时出错

我已经编写了一个基本的 spark 应用程序,可以按照本指南( https://github.com/datastax/spark-cassandra-connector/blob/master/doc/0_quick_start.md)读取和写入 Cassandra

这是这个应用程序的 .sbt 的样子:

如您所见,Spark 版本是1.2.1(而不是像许多其他问题那样是 1.3.1),但是当我使用 spark-submit 运行此应用程序时,我仍然遇到错误:

我错过了什么?到目前为止,我搜索到的所有答案都建议使用我已经在做的 1.2.1。

我们欢迎所有的建议!

0 投票
1 回答
1635 浏览

cassandra - Cassandra 在不同查询上的性能

在 Cassandra 中,我读到我需要设计我的表模式,以便达到最小数量的分区。我设计了架构来满足这个要求。但是我处于需要单独获取所有分区键的情况。所以我打算使用

Select Distinct <partitionKeys> from table

我使用 cqlsh 对大约 15k 行运行了一个不同的查询。它非常快。

问题

  1. 如果我使用 distinct 会有任何性能问题吗?
  2. cassandra 如何单独获取分区键?
  3. 我需要知道不同查询的限制。
0 投票
1 回答
599 浏览

java - 使用 spark-cassandra-connector-java api 并在尝试提交 spark 作业时出错

所以我试图让一个简单的示例程序使用 Java 和 spark cassandra 连接器工作。运行 sbt 程序集工作正常,我得到一个提交给 spark 的胖罐子。问题来了,当我提交作业来激发我得到这个错误:

这是下面的 submit-job.sh 脚本:

这是我的 build.sbt 文件

下面是正在编译的代码:

sbt 程序集工作正常,但在实际提交作业后找不到类定义。

0 投票
1 回答
1084 浏览

java - 数据框未保存到 Cassandra

我有一个带有Spark (version 1.4.0)and的应用程序Spark-Cassandra-connector (version 1.3.0-M1)。其中,我试图将一个数据帧存储到具有两列(总计、消息)的 Cassandra 表中。我已经用这两列在 Cassandra 中创建了表。

这是我的代码,

但我得到了这个例外,