0

我正在从 1.6 升级到 spark 2,并且在读取 CSV 文件时遇到问题。在 spark 1.6 中,我会在 CSV 文件中读取类似的内容。

val df = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.load(fileName)

现在我使用文档中给出的以下代码:

val df = spark.read
.option("header", "true")
.csv(fileName)

这会导致运行时出现以下错误:

"Exception in thread "main" java.lang.RuntimeException: Multiple sources found for csv (org.apache.spark.sql.execution.datasources.csv.CSVFileFormat, com.databricks.spark.csv.DefaultSource15), please specify the fully qualified class name."

我认为这是因为我仍然有 spark-csv 依赖项,但是我删除了该依赖项并重建了应用程序,但我仍然得到同样的错误。删除后如何仍然找到databricks依赖项?

4

2 回答 2

3

错误消息意味着您--packages com.databricks:spark-csv_2.11:1.5.0可以在运行时选择spark-shell或在类路径中有这些 jar。请检查您的课程路径并将其删除。

于 2017-01-18T18:51:39.257 回答
-1

我没有在我的类路径中添加任何罐子。我用它在 spark shell(2.3.1) 中加载 csv 文件。 val df = spark.sqlContext.read.csv('path')

于 2018-12-04T07:50:23.310 回答