apache-spark - 将csv文件导入火花数据框

翻译自：https://stackoverflow.com/questions/37286001 2016-05-17T20:49:09.137

492 次

我正在尝试使用 pyspark 导入 csv 文件。我试过这个和这个。

使用第一种方法，我可以读取 csv 文件。但是变量的数量非常大。所以手动提及变量名是很困难的。

使用第二种方法（spark-csv），我可以使用命令提示符读取 csv 文件。但是当我尝试在 Jupyter 笔记本中使用相同的方法时，我收到了错误：

Py4JJavaError: An error occurred while calling o89.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org

我也厌倦了这个选项。我修复了“conf”文件。但不知道如何在 windows 环境下设置“PACKAGES”和“PYSPARK_SUBMIT_ARGS”。

任何人都可以帮助我如何在 spark 数据框中读取 csv 文件吗？

谢谢！

apache-spark - 将csv文件导入火花数据框

0 回答 0

Related

Reference