问题标签 [spark-cassandra-connector]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 我必须使用 Pojo 对象映射将记录插入 Cassandra
我需要将记录插入 Cassandra,所以我编写了一个函数,其输入是一个 csv 文件。假设 csv 文件的名称是 test.csv。在 Cassandra 我有一个表格测试。我需要将 csv 文件的每一行存储到测试表中。由于我使用的是 spark java api ,因此我还创建了一个 POJO 类或 DTO 类来映射 Pojo 的字段和 Cassandra 的列。
这里的问题是 test.csv 有大约 50 个逗号分隔值,这些值必须存储在 cassandra 的测试表的 50 列中,总共有 400 列。所以在我的测试 POJO 类中,我创建了这 50 个字段的构造函数。
}
所以在这里我总是将 test.csv 文件每一行的 TestPojo 类的 Object 返回到 Objects 的 Rdd 。完成后,我将使用 TestPojo 映射将该 rdd 保存到 Cassandra 表测试。
我的问题是,如果 test.csv 将来有 60 列,那么我的代码将无法工作,因为我调用的构造函数只有 50 个字段。
我的问题是如何创建一个包含 TestPojo 中所有 400 个字段的构造函数,这样无论 test.csv 有多少字段,我的代码都应该能够处理它。
我试图创建一个包含所有 400 个字段的通用构造函数,但最终出现编译错误,说构造函数参数的限制只有 255 个字段。
或者有没有更好的方法来处理这个用例?
问题 2:如果 test.csv 中的数据将发送到 cassandra 中的多个表,例如 test.csv 的 5 个 cols 将发送到 cassandra 中的 test 表,而其他 5 个 cols 将发送到 cassandra 中的 test2 表,该怎么办?
这里的问题是当我在做
我只返回一个 TestPojo 对象。如果 test.csv 中的数据将发送到 test table 和 test2 table ,我将需要返回两个对象,一个是 TestPojo,另一个是 Test2Pojo。
cassandra - 有关如何设置 mesos、cassandra 和 spark 的物理(测试)集群的任何资源
我已经能够采购 4 台物理机来设置火花测试集群。数据将存储在 cassandra 中,计算将使用 spark(sql 和数据帧)完成。我计划使用 mesos,因为作为开发人员,我希望尽可能少地做基础设施工作。
但是,我发现的几乎所有教程都来自 mesophere,使用了他们的商业dcos基础设施。我能够将 dcos cli 配置为使用 marathon,但其中一位中间层支持人员告诉我,它可能无法很好地工作。
我能够安装 cassandra,但马拉松告诉我它的状态是“不健康”。Spark 甚至没有走那么远,Marathon 告诉我部署任务失败,但是没有 long,没有错误消息,什么都没有。
使用 mesos 只是个坏主意吗?有替代方案吗?关于如何让 cassandra 和 spark 运行的任何其他资源?我不介意买书。
更新:我在所有四台机器上运行 CentOS 7。这些机器有超过 20 GB 的内存、12 个 CPU 和大约 1TB 的磁盘。其中之一被设置为主节点(运行 zookeeper 和 mesos 主节点),其余机器是从机/客户端。
mysql - 在 C* 端过滤 - 将过滤器/范围查询从 Spark 下推到 C*
我使用 datastax/spark-cassandra-connector 和 C* 表使用 1B+ 行(datastax-enterprise dse 4.7.0)处理 spark 1.2.1。我需要对时间戳参数执行范围过滤/位置查询。
在不加载整个 1B+ 行表来触发内存(可能需要几个小时才能完成)并将查询推回 C* 的情况下,最好的方法是什么?
使用带有 JoinWithCassandraTable 的 rdd 或使用带有下推的数据框?还有别的吗?
apache-spark - Spark 1.5.1 从 Cassandra 创建 RDD (ClassNotFoundException: com.datastax.spark.connector.japi.rdd.CassandraTableScanJavaRDD)
我正在尝试从 cassandra 获取记录并创建 rdd。
我在 Spark 1.5.1 上提交作业时收到此错误
当前依赖项:
Java 代码:
依赖中的版本有问题吗?
请帮助解决此错误。提前致谢。
scala - 使用 Datastax 的 Spark Cassandra 连接器在 TableDef 上设置 Cassandra 聚类顺序
每次我尝试在 cassandra 中创建一个带有新表的新表时,TableDef
我最终都会得到一个升序的聚类顺序,并且我试图降序。
我正在使用 Cassandra 2.1.10、Spark 1.5.1 和 Datastax Spark Cassandra Connector 1.5.0-M2。
我正在创建一个新的TableDef
我期望在卡桑德拉看到的是
我最终得到的是
如何强制它将聚类顺序设置为降序?
cassandra - How to make workers to query only local cassandra nodes?
Suppose I have several machines each having spark worker and cassandra node installed. Is it possible to require each spark worker to query only its local cassandra node (on the same machine), so that no network operation involved when I do joinWithCassandraTable after repartitionByCassandraReplica using spark-cassandra-connector, so each spark worker fetches data from its local storage?
apache-spark - datastax spark-cassandra 连接器的构建失败
我正在尝试构建 spark-cassandra 连接器并点击此链接:
链接中进一步要求从 git 下载连接器并使用 sbt 构建。但是,当我尝试运行命令时./sbt/sbt assembly
。它抛出以下异常:
cassandra - 在 Apache Spark 中检索 Cassandra 分区数据
我的数据按Cassandra上的分区键组织得很好。我想在Spark中检索这些数据并保持相同的分区。
我的目标是避免非常大的洗牌。
PS:我正在使用 Cassandra 2.1 和 Spark 1.5
scala - saveToCassandra 基于来自 RDD 的内容
我在scala中使用spark来构建一个通用应用程序来并行化http调用,我担心是否可以根据RDD的内容执行saveToCassandra操作,因为响应应该进入不同的表。
为了提供更多的清晰度,
在哪里
然后将每个查询映射到要保存到 cassandra 的元组列表中,但根据查询中的数据源,google 的数据应该进入 google 的 cassandra 表,而 yahoo 的数据应该进入它自己的表。
TIA
apache-spark - Spark 节点能否使用 Spark-Cassandra 连接器连接到托管在不同服务器中的 Cassandra 节点
我通过的 Spark-Cassandra 连接器引用使用 127.0.0.1,因此想知道 Spark 是否可以连接到托管在不同服务器中的 Cassandra 节点。
一个。如果可能,是否有任何额外的步骤来建立连接,而不是托管在同一物理服务器中
湾。如果不可能,我还能如何将 Spark 与 Cassandra 连接起来。