9

我正在使用 cassandra 2.0.3,我想使用 pyspark(Apache Spark Python API)从 cassandra 数据创建一个 RDD 对象。

请注意:我不想导入 CQL,然后从 pyspark API 进行 CQL 查询,而是想创建一个 RDD,我想在其上进行一些转换。

我知道这可以在 Scala 中完成,但我无法从 pyspark 中找出如何做到这一点。

如果有人可以指导我,我真的很感激。

4

2 回答 2

2

可能与您不再相关,但我一直在寻找相同的东西,但找不到任何我满意的东西。所以我做了一些工作:https ://github.com/TargetHolding/pyspark-cassandra 。在生产中使用之前需要进行大量测试,但我认为集成效果很好。

于 2015-02-21T18:03:21.537 回答
0

我不确定你是否看过 这个 例子

于 2014-10-26T22:00:17.797 回答