问题标签 [spark-cassandra-connector]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
274 浏览

cassandra - 从 spark 更新 cassandra 集合

我对 spark-cassandra 很陌生。

我正在浏览 spark-casssandra 连接器的文档,以了解如何更新 cassandra 集合。此链接(https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md)具有以下代码来更新集合:

但是当我在eclipse中尝试上面的代码时,我在“lcol” append 和“lcol” prepend 附近得到一个错误

错误是:值追加不是字符串的成员,值前置不是字符串的成员

我在这里错过了什么吗?我该如何解决这个问题?

0 投票
1 回答
1175 浏览

cassandra - 如何在 cassandra 中进行同步删除和创建密钥空间?

我不希望键空间中任何表中的任何数据。所以我决定删除键空间(如果存在)并立即创建它。我正在使用下面的代码来实现相同的目的。

) }

但它未能创建一个键空间。从日志中我只能看到一条警告,指出

我也尝试过使用 python cassandra 驱动程序。但结果是一样的。我相信存在一些竞争条件,并且丢弃键空间发生异步(如果我错了,请纠正我)。

如何同步删除和创建键空间?

0 投票
2 回答
243 浏览

apache-spark - 无法使用 sbt-assembly 构建 Spark+cassandra

我正在尝试使用 Spark+Cassandra 构建一个简单的项目,用于 SQL 分析演示。我需要使用 Cassandra v2.0.14(暂时无法升级)。我找不到正确版本的 Spark 和 Spark-cassandra-connector。我在https://github.com/datastax/spark-cassandra-connector提到了 Datastax 的 git 项目,而且我知道 Spark 和 Spark-cassandra-connector 版本需要与 Cassandra 匹配并兼容。因此,希望有人帮助指出 Spark、Spark-Cassandra-connector 的确切版本。我尝试对 Spark 和 Spark-Cassandra-connector 使用 v1.1.0 和 v1.2.1 - 但无法在没有提供的 sbt 的情况下构建 spark-cassandra-connector jat jar(失败,因为下载的 sbt-launch jar 仅包含 404找不到 html),也不是我的本地 sbt v0.13.8(“import sbtassembly.Plugin. ”、“import AssemblyKeys. ”的编译错误失败)

0 投票
1 回答
155 浏览

apache-spark - 我们如何在 Apache Spark 中使用多个 Cassandra 设置?

我在两台不同的机器上有两种不同的 Cassandra 设置。我正在尝试从一台机器读取数据,使用 Spark 对其进行处理,然后将结果写入第二个设置。我正在使用 spark-cassandra-connector-java_2.10。当我尝试使用 javaFunctions.writeBuilder 时,它允许我指定键空间和表名,但 Cassandra 主机是从 Spark 上下文中获取的。除了 Spark Context 中提到的之外,还有其他方法可以将数据写入 Cassandra 设置吗?我们如何覆盖这个默认设置?

0 投票
2 回答
2051 浏览

apache-spark - 如何使用 spark cassandra 连接器连接到 1 个以上的 cassandra 主机

我有一个 spark 应用程序,它从一个 cassandra 集群读取数据,并在一些计算后将数据保存到另一个 cassandra 集群。我只能在 sparkconf 中设置 1 个 cassandra 配置。但我需要再连接 1 个 cassandra 集群。

我看到一个用于连接到 cassandra 的 CassandraConnector 类,但它使用 CassandraConnectorConf 对象来创建一个对象,该对象需要很多我不知道的参数。

任何帮助都会有所帮助

0 投票
2 回答
2174 浏览

scala - 使用 spark-cassandra 连接器的 Cassandra 插入性能

我是火花和卡桑德拉的新手。我正在尝试使用 spark-cassandra 连接器插入 cassandra 表,如下所示:

当我使用上述方法(包含 100 个实体的列表)插入时,它需要300-1100 milliseconds. 我尝试使用幻像库插入相同的数据。它只占用不到20-40 milliseconds.

谁能告诉我为什么火花连接器要花这么多时间来插入?我在我的代码中做错了什么还是不建议使用spark-cassandra 连接器进行插入操作?

0 投票
1 回答
4332 浏览

scala - Spark SQL + Cassandra:性能不佳

我刚开始使用 Spark SQL + Cassandra,可能遗漏了一些重要的东西,但是一个简单的查询大约需要 45 秒。我正在使用cassanda-spark-connector库,并运行也托管 Spark 的本地 Web 服务器。所以我的设置大致是这样的:

在 sbt 中:

在代码中,我有一个承载SparkContextCassandraSQLContetx. 然后从 servlet 调用它。单例代码如下所示:

在这里我如何使用它:

Cassandra、Spark 和 Web 应用程序在我的 Macbook Pro 上的虚拟机中的同一主机上运行,​​具有不错的规格。Cassandra 查询本身需要 10-20 毫秒。

当我第一次调用这个端点时,返回结果需要 70-80 秒。随后的查询大约需要 45 秒。后续操作的日志是这样的:

从日志中可以看出,最长的停顿在这 3 行之间(21 + 24 秒):

显然,我做错了什么。那是什么?我该如何改进呢?

编辑:重要的补充:表格的大小很小(〜200个条目tracking_events,〜20个customers),因此将它们全部读入内存不应该花费任何时间。它是本地 Cassandra 安装,不涉及集群,不涉及网络。

0 投票
2 回答
107 浏览

cassandra - 在使用 distinct 时获取每个 RDD 的顶部条目

我有一些随时间变化的数据,我将其保存在 cassandra 中。UserId 是分区键,标记日期是降序排列的集群键和数据。我的期望是,如果我从 Spark 查询它并在其上运行 .distinct,我将获得每个 UserId 的最高条目,从而为我提供最新数据。但看起来它并没有这样做。

除了减少数据并传递一个为每次比较选择最近日期数据的函数之外,还有什么方法可以获取与最新日期相对应的数据。

[编辑]

因此,根据我的要求,对于用户 1,我希望将建筑物 1 作为位置,将建筑物 10 作为用户 2。

星火版本 1.2.2

0 投票
1 回答
771 浏览

scala - 依靠 RDD 给出不同的结果

我有一个超过 7500 万行的 RDD,当我在其上调用count函数时,每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。

编辑

只是为了给数据一个概念,结构是这样的

分区键:Userid
集群键:Date ORDER BY DESC

Spark 版本:1.2.2
数据来自 Cassandra
API 使用的是 Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取UseridLocation.

0 投票
2 回答
4258 浏览

scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上

我正在寻找一个RDD和一个cassandra表的连接,它们对于同一个键ex(简化)具有不同的名称:

如果想做:

我怎样才能精确地确定要在其上进行连接的字段的名称。而且我不想将 rdd 映射为只有正确的 id,因为我想在 joinWithCassandraTable 之后加入所有值。