amazon-web-services - 当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时，出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

Question

我在 Java 或 Hadoop 生态系统方面没有经验。我使用 Datastax 中的 spark-cassandra-connector 将我的 Spark 集群配置为连接到 Amazon Keyspaces。我正在使用 Pyspark 从 Cassandra 获取数据。我可以成功连接到 Keyspaces/Cassandra 集群。但是，当我尝试从中获取数据时。

df = spark.sql("SELECT * FROM cass.tutorialkeyspace.tutorialtable")
print ("Table Row Count: ")
print (df.count())

我收到此错误：

Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner

是的，keyspace & table 存在并且有数据。我该如何解决/解决这个问题？谢谢！

score 2 · Accepted Answer

感谢您的反馈。此时，您可以使用 Cassandra Spark 连接器写入键空间。阅读需要支持象征性的愤怒。请参阅以下文档页面以查看支持的 API 列表https://docs.aws.amazon.com/keyspaces/latest/devguide/cassandra-apis.html。

虽然我们目前没有时间表可以分享，但我们会根据客户反馈优先考虑我们的路线图。我们一直在发布新功能。要详细了解我们的路线图和即将推出的功能，请联系您的 AWS 客户经理。

score 2 · Accepted Answer

Spark Cassandra 连接器依赖于特定的分区器实现来定义数据拆分等。目前没有解决此问题的方法，直到有人将相应 TokenFactory 的实现添加到此代码中。它不应该很复杂，应该由对它感兴趣的人来完成。

amazon-web-services - 当我尝试使用 Pyspark 从 Amazon Keyspaces 获取数据时，出现 Unsupported partitioner: com.amazonaws.cassandra.DefaultPartitioner 错误

2 回答 2

Related

Reference