问题标签 [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - 从 spark 更新 cassandra 集合
我对 spark-cassandra 很陌生。
我正在浏览 spark-casssandra 连接器的文档,以了解如何更新 cassandra 集合。此链接(https://github.com/datastax/spark-cassandra-connector/blob/master/doc/5_saving.md)具有以下代码来更新集合:
但是当我在eclipse中尝试上面的代码时,我在“lcol” append 和“lcol” prepend 附近得到一个错误
错误是:值追加不是字符串的成员,值前置不是字符串的成员
我在这里错过了什么吗?我该如何解决这个问题?
cassandra - 如何在 cassandra 中进行同步删除和创建密钥空间?
我不希望键空间中任何表中的任何数据。所以我决定删除键空间(如果存在)并立即创建它。我正在使用下面的代码来实现相同的目的。
) }
但它未能创建一个键空间。从日志中我只能看到一条警告,指出
我也尝试过使用 python cassandra 驱动程序。但结果是一样的。我相信存在一些竞争条件,并且丢弃键空间发生异步(如果我错了,请纠正我)。
如何同步删除和创建键空间?
apache-spark - 无法使用 sbt-assembly 构建 Spark+cassandra
我正在尝试使用 Spark+Cassandra 构建一个简单的项目,用于 SQL 分析演示。我需要使用 Cassandra v2.0.14(暂时无法升级)。我找不到正确版本的 Spark 和 Spark-cassandra-connector。我在https://github.com/datastax/spark-cassandra-connector提到了 Datastax 的 git 项目,而且我知道 Spark 和 Spark-cassandra-connector 版本需要与 Cassandra 匹配并兼容。因此,希望有人帮助指出 Spark、Spark-Cassandra-connector 的确切版本。我尝试对 Spark 和 Spark-Cassandra-connector 使用 v1.1.0 和 v1.2.1 - 但无法在没有提供的 sbt 的情况下构建 spark-cassandra-connector jat jar(失败,因为下载的 sbt-launch jar 仅包含 404找不到 html),也不是我的本地 sbt v0.13.8(“import sbtassembly.Plugin. ”、“import AssemblyKeys. ”的编译错误失败)
apache-spark - 我们如何在 Apache Spark 中使用多个 Cassandra 设置?
我在两台不同的机器上有两种不同的 Cassandra 设置。我正在尝试从一台机器读取数据,使用 Spark 对其进行处理,然后将结果写入第二个设置。我正在使用 spark-cassandra-connector-java_2.10。当我尝试使用 javaFunctions.writeBuilder 时,它允许我指定键空间和表名,但 Cassandra 主机是从 Spark 上下文中获取的。除了 Spark Context 中提到的之外,还有其他方法可以将数据写入 Cassandra 设置吗?我们如何覆盖这个默认设置?
apache-spark - 如何使用 spark cassandra 连接器连接到 1 个以上的 cassandra 主机
我有一个 spark 应用程序,它从一个 cassandra 集群读取数据,并在一些计算后将数据保存到另一个 cassandra 集群。我只能在 sparkconf 中设置 1 个 cassandra 配置。但我需要再连接 1 个 cassandra 集群。
我看到一个用于连接到 cassandra 的 CassandraConnector 类,但它使用 CassandraConnectorConf 对象来创建一个对象,该对象需要很多我不知道的参数。
任何帮助都会有所帮助
scala - 使用 spark-cassandra 连接器的 Cassandra 插入性能
我是火花和卡桑德拉的新手。我正在尝试使用 spark-cassandra 连接器插入 cassandra 表,如下所示:
当我使用上述方法(包含 100 个实体的列表)插入时,它需要300-1100 milliseconds
. 我尝试使用幻像库插入相同的数据。它只占用不到20-40 milliseconds
.
谁能告诉我为什么火花连接器要花这么多时间来插入?我在我的代码中做错了什么还是不建议使用spark-cassandra 连接器进行插入操作?
scala - Spark SQL + Cassandra:性能不佳
我刚开始使用 Spark SQL + Cassandra,可能遗漏了一些重要的东西,但是一个简单的查询大约需要 45 秒。我正在使用cassanda-spark-connector
库,并运行也托管 Spark 的本地 Web 服务器。所以我的设置大致是这样的:
在 sbt 中:
在代码中,我有一个承载SparkContext
和CassandraSQLContetx
. 然后从 servlet 调用它。单例代码如下所示:
在这里我如何使用它:
Cassandra、Spark 和 Web 应用程序在我的 Macbook Pro 上的虚拟机中的同一主机上运行,具有不错的规格。Cassandra 查询本身需要 10-20 毫秒。
当我第一次调用这个端点时,返回结果需要 70-80 秒。随后的查询大约需要 45 秒。后续操作的日志是这样的:
从日志中可以看出,最长的停顿在这 3 行之间(21 + 24 秒):
显然,我做错了什么。那是什么?我该如何改进呢?
编辑:重要的补充:表格的大小很小(〜200个条目tracking_events
,〜20个customers
),因此将它们全部读入内存不应该花费任何时间。它是本地 Cassandra 安装,不涉及集群,不涉及网络。
cassandra - 在使用 distinct 时获取每个 RDD 的顶部条目
我有一些随时间变化的数据,我将其保存在 cassandra 中。UserId 是分区键,标记日期是降序排列的集群键和数据。我的期望是,如果我从 Spark 查询它并在其上运行 .distinct,我将获得每个 UserId 的最高条目,从而为我提供最新数据。但看起来它并没有这样做。
除了减少数据并传递一个为每次比较选择最近日期数据的函数之外,还有什么方法可以获取与最新日期相对应的数据。
[编辑]
因此,根据我的要求,对于用户 1,我希望将建筑物 1 作为位置,将建筑物 10 作为用户 2。
星火版本 1.2.2
scala - 依靠 RDD 给出不同的结果
我有一个超过 7500 万行的 RDD,当我在其上调用count
函数时,每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。
编辑
只是为了给数据一个概念,结构是这样的
分区键:Userid
集群键:Date
ORDER BY DESC
Spark 版本:1.2.2
数据来自 Cassandra
API 使用的是 Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 来获取Userid
和Location
.
scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上
我正在寻找一个RDD和一个cassandra表的连接,它们对于同一个键ex(简化)具有不同的名称:
和
如果想做:
我怎样才能精确地确定要在其上进行连接的字段的名称。而且我不想将 rdd 映射为只有正确的 id,因为我想在 joinWithCassandraTable 之后加入所有值。