我有一个通过 google dataproc 创建的 spark 集群。我希望能够使用databricks中的csv 库(请参阅https://github.com/databricks/spark-csv)。所以我首先像这样测试它:
我与集群的主节点启动了 ssh 会话,然后输入:
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
然后它启动了一个 pyspark shell,我在其中输入:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('gs:/xxxx/foo.csv')
df.show()
它奏效了。
我的下一步是使用以下命令从我的主机启动此作业:
gcloud beta dataproc jobs submit pyspark --cluster <my-dataproc-cluster> my_job.py
但在这里它不起作用,我得到一个错误。我想是因为我没有给出--packages com.databricks:spark-csv_2.11:1.2.0
作为论据,但我尝试了 10 种不同的方式来给出它,但我没有成功。
我的问题是:
- 是我输入后安装的databricks csv库
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
- 我可以写一行
job.py
来导入它吗? - 或者我应该为我的 gcloud 命令提供哪些参数来导入或安装它?