0

我正在使用Spark 1.3.0 并想使用Pyspark连接Cassandra
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2

它显示成功下载依赖 jar 并进入 Pyspark 终端,但我无法进行导入。

>>> from pyspark_cassandra import CassandraSparkContext, Row <br/> 
Tracstrong texteback (most recent call last): 
  File "<stdin>", line 1, in <module> 
ImportError: No module named pyspark_cassandra 

我也试过

sudo -u hdfs pyspark --packages TargetHolding:pyspark-cassandra:0.1.5 


以及使用--jars option. 还是一样。使用 scala 的 spark-shell 也同样适用。我是 python 新手。我错过了什么吗?

4

2 回答 2

0

1.3.0-M2 没有软件包发布

目前 spark-packages 的唯一版本是 1.4.0-M3

检查以下链接以获取当前软件包

http://spark-packages.org/package/datastax/spark-cassandra-connector

运行它后,访问 C* 的方式是通过 Dataframes API

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

于 2015-09-19T22:13:59.860 回答
0

你可能应该这样设置你的 PYTHONPATH :

export SPARK_HOME=/usr/local/ilias/apache-spark/1.3.0
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
于 2015-09-19T07:26:03.257 回答