“spark-cassandra-connector”的相关标签问题

0 投票

2 回答

274 浏览

cassandra - 从 spark 更新 cassandra 集合

我对 spark-cassandra 很陌生。

我正在浏览 spark-casssandra 连接器的文档，以了解如何更新 cassandra 集合。此链接（https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md）具有以下代码来更新集合：

但是当我在eclipse中尝试上面的代码时，我在“lcol” append 和“lcol” prepend 附近得到一个错误

错误是：值追加不是字符串的成员，值前置不是字符串的成员

我在这里错过了什么吗？我该如何解决这个问题？

2015-08-06T07:32:33.563

0 投票

1 回答

1175 浏览

cassandra - 如何在 cassandra 中进行同步删除和创建密钥空间？

我不希望键空间中任何表中的任何数据。所以我决定删除键空间（如果存在）并立即创建它。我正在使用下面的代码来实现相同的目的。

) }

但它未能创建一个键空间。从日志中我只能看到一条警告，指出

我也尝试过使用 python cassandra 驱动程序。但结果是一样的。我相信存在一些竞争条件，并且丢弃键空间发生异步（如果我错了，请纠正我）。

如何同步删除和创建键空间？

cassandra spark-cassandra-connector

2015-08-10T19:14:03.163

0 投票

2 回答

243 浏览

apache-spark - 无法使用 sbt-assembly 构建 Spark+cassandra

我正在尝试使用 Spark+Cassandra 构建一个简单的项目，用于 SQL 分析演示。我需要使用 Cassandra v2.0.14（暂时无法升级）。我找不到正确版本的 Spark 和 Spark-cassandra-connector。我在https://github.com/datastax/spark-cassandra-connector提到了 Datastax 的 git 项目，而且我知道 Spark 和 Spark-cassandra-connector 版本需要与 Cassandra 匹配并兼容。因此，希望有人帮助指出 Spark、Spark-Cassandra-connector 的确切版本。我尝试对 Spark 和 Spark-Cassandra-connector 使用 v1.1.0 和 v1.2.1 - 但无法在没有提供的 sbt 的情况下构建 spark-cassandra-connector jat jar（失败，因为下载的 sbt-launch jar 仅包含 404找不到 html），也不是我的本地 sbt v0.13.8（“import sbtassembly.Plugin. ”、“import AssemblyKeys. ”的编译错误失败）

apache-spark sbt-assembly spark-cassandra-connector

2015-08-11T04:44:34.520

0 投票

1 回答

155 浏览

apache-spark - 我们如何在 Apache Spark 中使用多个 Cassandra 设置？

我在两台不同的机器上有两种不同的 Cassandra 设置。我正在尝试从一台机器读取数据，使用 Spark 对其进行处理，然后将结果写入第二个设置。我正在使用 spark-cassandra-connector-java_2.10。当我尝试使用 javaFunctions.writeBuilder 时，它允许我指定键空间和表名，但 Cassandra 主机是从 Spark 上下文中获取的。除了 Spark Context 中提到的之外，还有其他方法可以将数据写入 Cassandra 设置吗？我们如何覆盖这个默认设置？

apache-spark spark-cassandra-connector

2015-08-11T06:17:54.977

0 投票

2 回答

2051 浏览

apache-spark - 如何使用 spark cassandra 连接器连接到 1 个以上的 cassandra 主机

我有一个 spark 应用程序，它从一个 cassandra 集群读取数据，并在一些计算后将数据保存到另一个 cassandra 集群。我只能在 sparkconf 中设置 1 个 cassandra 配置。但我需要再连接 1 个 cassandra 集群。

我看到一个用于连接到 cassandra 的 CassandraConnector 类，但它使用 CassandraConnectorConf 对象来创建一个对象，该对象需要很多我不知道的参数。

任何帮助都会有所帮助

apache-spark spark-cassandra-connector

2015-08-11T07:27:52.263

0 投票

2 回答

2174 浏览

scala - 使用 spark-cassandra 连接器的 Cassandra 插入性能

我是火花和卡桑德拉的新手。我正在尝试使用 spark-cassandra 连接器插入 cassandra 表，如下所示：

当我使用上述方法（包含 100 个实体的列表）插入时，它需要300-1100 milliseconds. 我尝试使用幻像库插入相同的数据。它只占用不到20-40 milliseconds.

谁能告诉我为什么火花连接器要花这么多时间来插入？我在我的代码中做错了什么还是不建议使用spark-cassandra 连接器进行插入操作？

scala cassandra apache-spark spark-cassandra-connector phantom-dsl

2015-08-11T12:16:36.703

0 投票

1 回答

4332 浏览

scala - Spark SQL + Cassandra：性能不佳

我刚开始使用 Spark SQL + Cassandra，可能遗漏了一些重要的东西，但是一个简单的查询大约需要 45 秒。我正在使用cassanda-spark-connector库，并运行也托管 Spark 的本地 Web 服务器。所以我的设置大致是这样的：

在 sbt 中：

在代码中，我有一个承载SparkContext和CassandraSQLContetx. 然后从 servlet 调用它。单例代码如下所示：

在这里我如何使用它：

Cassandra、Spark 和 Web 应用程序在我的 Macbook Pro 上的虚拟机中的同一主机上运行，具有不错的规格。Cassandra 查询本身需要 10-20 毫秒。

当我第一次调用这个端点时，返回结果需要 70-80 秒。随后的查询大约需要 45 秒。后续操作的日志是这样的：

从日志中可以看出，最长的停顿在这 3 行之间（21 + 24 秒）：

显然，我做错了什么。那是什么？我该如何改进呢？

编辑：重要的补充：表格的大小很小（〜200个条目tracking_events，〜20个customers），因此将它们全部读入内存不应该花费任何时间。它是本地 Cassandra 安装，不涉及集群，不涉及网络。

scala cassandra apache-spark-sql spark-cassandra-connector

2015-08-17T13:26:10.840

0 投票

2 回答

107 浏览

cassandra - 在使用 distinct 时获取每个 RDD 的顶部条目

我有一些随时间变化的数据，我将其保存在 cassandra 中。UserId 是分区键，标记日期是降序排列的集群键和数据。我的期望是，如果我从 Spark 查询它并在其上运行 .distinct，我将获得每个 UserId 的最高条目，从而为我提供最新数据。但看起来它并没有这样做。

除了减少数据并传递一个为每次比较选择最近日期数据的函数之外，还有什么方法可以获取与最新日期相对应的数据。

[编辑]

因此，根据我的要求，对于用户 1，我希望将建筑物 1 作为位置，将建筑物 10 作为用户 2。

星火版本 1.2.2

cassandra apache-spark spark-cassandra-connector

2015-08-18T01:54:36.737

0 投票

1 回答

771 浏览

scala - 依靠 RDD 给出不同的结果

我有一个超过 7500 万行的 RDD，当我在其上调用count函数时，每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。

编辑

只是为了给数据一个概念，结构是这样的

分区键：Userid
集群键：Date ORDER BY DESC

Spark 版本：1.2.2
数据来自 Cassandra
API 使用的是 Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取Userid和Location.

scala cassandra apache-spark spark-cassandra-connector

2015-08-18T20:18:31.317

0 投票

2 回答

4258 浏览

scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上

我正在寻找一个RDD和一个cassandra表的连接，它们对于同一个键ex（简化）具有不同的名称：

和

如果想做：

我怎样才能精确地确定要在其上进行连接的字段的名称。而且我不想将 rdd 映射为只有正确的 id，因为我想在 joinWithCassandraTable 之后加入所有值。

scala cassandra apache-spark datastax-enterprise spark-cassandra-connector

2015-08-25T16:33:28.067

问题标签 [spark-cassandra-connector]

Reference