1

我在 Java 或 Hadoop 生态系统方面没有经验。我使用 Datastax 中的 spark-cassandra-connector 将我的 Spark 集群配置为连接到 Amazon Keyspaces。我正在使用 Pyspark 从 Cassandra 获取数据。我可以成功连接到 Keyspaces/Cassandra 集群。但是,当我尝试从中获取数据时。

df = spark.sql("SELECT * FROM cass.tutorialkeyspace.tutorialtable")
print ("Table Row Count: ")
print (df.count())

我收到此错误:

Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner

是的,keyspace & table 存在并且有数据。我该如何解决/解决这个问题?谢谢!

4

2 回答 2

2

感谢您的反馈。此时,您可以使用 Cassandra Spark 连接器写入键空间。阅读需要支持象征性的愤怒。请参阅以下文档页面以查看支持的 API 列表https://docs.aws.amazon.com/keyspaces/latest/devguide/cassandra-apis.html

虽然我们目前没有时间表可以分享,但我们会根据客户反馈优先考虑我们的路线图。我们一直在发布新功能。要详细了解我们的路线图和即将推出的功能,请联系您的 AWS 客户经理。

于 2021-07-15T00:18:39.333 回答
2

Spark Cassandra 连接器依赖于特定的分区器实现来定义数据拆分等。目前没有解决此问题的方法,直到有人将相应 TokenFactory 的实现添加到此代码中。它不应该很复杂,应该由对它感兴趣的人来完成。

于 2021-07-08T16:05:37.673 回答