问题标签 [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Spark-将 JavaRDD 保存到 Cassandra
此链接显示了一种以这种方式保存JavaRDD
到Cassandra
的方法:
但com.datastax.spark.connector.CassandraJavaUtil.*
似乎已弃用。更新后的 API 应该是:
有人可以告诉我一些代码来存储JavaRDD
使用Cassandra
上面更新的 API 吗?
java - 使用 datastax spark-cassandra java 连接器运行 spark 和 cassandra 时出错
使用 spark-cassandra 连接器时出现以下错误:
我的代码:
我试图用谷歌搜索这个问题,发现它可以通过使用兼容的 scala 版本来解决。但我正在使用 java 连接器。
如何解决这个问题?
谢谢。
apache-spark - 将RDD保存到Cassandra时如何自定义列映射?
我正在使用 Java 编写 Spark 应用程序。如果我有一个自定义元组,假设类“Person”。
我有一个
现在我想把它保存到 Cassandra。
假设我在 Cassandra 中有一个名为“people”的表,其中包含“name1”、“name2”和“name3”、“name4”、...、“name10”三列。根据教程,默认的列映射使用以下代码:
这将使用默认的列映射,例如:
但是我想自定义列映射,新的映射是这样的:
甚至我想丢弃 Person.name2
无论如何,我想知道是否有办法覆盖或替换默认的 RowWriter?
我应该怎么做才能修改列映射?
我找不到任何关于 Java 中自定义列映射的好材料。
scala - Scala 程序没有看到通过 SBT 下载的依赖项
我正在编写一个脚本来尝试让 Cassandra 和 Spark 一起工作,但我什至无法编译该程序。我使用 SBT 作为构建工具,并且我拥有声明的程序所需的所有依赖项。我第一次运行 sbt run 它下载了依赖项,但是当它开始编译如下所示的 scala 代码时会出现错误:
这是 SBT 构建文件
这是实际的 Scala 程序
这是我的目录结构
apache-spark - 任务在火花中有一个不可序列化的结果
我正在尝试使用 cassandra 驱动程序读取 cassandra 表。这是代码。
但我得到了异常任务有一个不可序列化的结果。
如何解决这个问题?
scala - Spark Cassandra SQL 无法对查询结果执行 DataFrame 方法
所以我有一个 Spark-Cassandra 集群,我试图在上面执行 sql 查询。我用 sbt 组件构建了一个 jar,然后用 spark-submit 提交它。当我不使用 spark-sql 时,这可以正常工作。当我使用 spark sql 时出现错误,以下是输出:
这是这项工作的scala代码,非常简单:
如您所见,spark 使用 sc.cassandraTable("test", "kv") 成功创建了一个 rdd,它能够获取计数、第一个值和总和。
当我运行 sql 查询时,我试图在 cqlsh 上运行 spark-sql,这是我得到的结果:
这是 build.sbt 文件,一个包含 spark-cassandra-connector 的胖 jar 被保存在 lib 文件夹中,因此它被 sbt 作为 unmanagedDependancy 自动添加到类路径中(我不认为构建文件是考虑的问题我已经成功地创建了一个基于 C* 表的 rdd 并在其上使用了方法)
cassandra - 使用 spark-cassandra 连接器运行 spark 应用程序时出错
我已经编写了一个基本的 spark 应用程序,可以按照本指南( https://github.com/datastax/spark-cassandra-connector/blob/master/doc/0_quick_start.md)读取和写入 Cassandra
这是这个应用程序的 .sbt 的样子:
如您所见,Spark 版本是1.2.1(而不是像许多其他问题那样是 1.3.1),但是当我使用 spark-submit 运行此应用程序时,我仍然遇到错误:
我错过了什么?到目前为止,我搜索到的所有答案都建议使用我已经在做的 1.2.1。
我们欢迎所有的建议!
cassandra - Cassandra 在不同查询上的性能
在 Cassandra 中,我读到我需要设计我的表模式,以便达到最小数量的分区。我设计了架构来满足这个要求。但是我处于需要单独获取所有分区键的情况。所以我打算使用
Select Distinct <partitionKeys> from table
我使用 cqlsh 对大约 15k 行运行了一个不同的查询。它非常快。
问题
- 如果我使用 distinct 会有任何性能问题吗?
- cassandra 如何单独获取分区键?
- 我需要知道不同查询的限制。
java - 使用 spark-cassandra-connector-java api 并在尝试提交 spark 作业时出错
所以我试图让一个简单的示例程序使用 Java 和 spark cassandra 连接器工作。运行 sbt 程序集工作正常,我得到一个提交给 spark 的胖罐子。问题来了,当我提交作业来激发我得到这个错误:
这是下面的 submit-job.sh 脚本:
这是我的 build.sbt 文件
下面是正在编译的代码:
sbt 程序集工作正常,但在实际提交作业后找不到类定义。
java - 数据框未保存到 Cassandra
我有一个带有Spark (version 1.4.0)
and的应用程序Spark-Cassandra-connector (version 1.3.0-M1)
。其中,我试图将一个数据帧存储到具有两列(总计、消息)的 Cassandra 表中。我已经用这两列在 Cassandra 中创建了表。
这是我的代码,
但我得到了这个例外,