我对这个故事中的不同参与者有点困惑:PySpark、SparkSQL、Cassandra 和 pyspark-cassandra 连接器。
据我了解,Spark 发展了很多,SparkSQL 现在是一个关键组件(带有“数据帧”)。显然,没有 SparkSQL 绝对没有理由工作,尤其是在连接到 Cassandra 时。
所以我的问题是:需要什么组件以及如何以最简单的方式将它们连接在一起?
在spark-shell
Scala 中,我可以简单地做
./bin/spark-shell --jars spark-cassandra-connector-java-assembly-1.6.0-M1-SNAPSHOT.jar
接着
import org.apache.spark.sql.cassandra.CassandraSQLContext
val cc = new CassandraSQLContext(sc)
cc.setKeyspace("mykeyspace")
val dataframe = cc.sql("SELECT count(*) FROM mytable group by beamstamp")
我该怎么做pyspark
?
这里有几个子问题以及我收集的部分答案(如果我错了,请纠正)。
是否需要 pyspark-casmandra(我不这么认为——我不明白一开始在做什么)
我需要使用
pyspark
还是可以使用我的常规jupyter notebook
并自己导入必要的东西?