csv - Spark 2.0 CSV 错误

Question

我正在从 1.6 升级到 spark 2，并且在读取 CSV 文件时遇到问题。在 spark 1.6 中，我会在 CSV 文件中读取类似的内容。

val df = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.load(fileName)

现在我使用文档中给出的以下代码：

val df = spark.read
.option("header", "true")
.csv(fileName)

这会导致运行时出现以下错误：

"Exception in thread "main" java.lang.RuntimeException: Multiple sources found for csv (org.apache.spark.sql.execution.datasources.csv.CSVFileFormat, com.databricks.spark.csv.DefaultSource15), please specify the fully qualified class name."

我认为这是因为我仍然有 spark-csv 依赖项，但是我删除了该依赖项并重建了应用程序，但我仍然得到同样的错误。删除后如何仍然找到databricks依赖项？

score 3 · Accepted Answer

错误消息意味着您--packages com.databricks:spark-csv_2.11:1.5.0可以在运行时选择spark-shell或在类路径中有这些 jar。请检查您的课程路径并将其删除。

score -1 · Accepted Answer

我没有在我的类路径中添加任何罐子。我用它在 spark shell(2.3.1) 中加载 csv 文件。 val df = spark.sqlContext.read.csv('path')

csv - Spark 2.0 CSV 错误

2 回答 2

Related

Reference