问题标签 [spark-csv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
15 回答
340557 浏览

scala - 使用 spark-csv 编写单个 CSV 文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个 CSV,但不能,它正在创建一个文件夹。

需要一个 Scala 函数,该函数将采用路径和文件名等参数并写入该 CSV 文件。

0 投票
1 回答
42347 浏览

scala - spark-csv 包中的 inferSchema

当 CSV 在 Spark 中被读取为数据框时,所有列都被读取为字符串。有什么办法可以得到实际的列类型吗?

我有以下 csv 文件

我已使用以下代码阅读了 CSV

所有列都被读取为字符串。我希望将years_of_experience列读取为int并将DOB读取为date

请注意,我已将选项inferSchema设置为true

我正在使用最新版本(1.0.3)的 spark-csv 包

我在这里错过了什么吗?

0 投票
1 回答
1692 浏览

scala - 在 spark-shell 中使用 spark-csv 包读取 CSV

我正在尝试使用spark-csv从 spark-shell 中的 aws s3 读取 csv。

以下是我执行的步骤。使用以下命令启动 spark-shell

bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0

在 shell 中,执行以下 scala 代码

收到以下错误

我在这里想念什么?请注意,我可以使用

相同的 scala 代码在databricks 笔记本中也可以正常工作

在 spark-csv github 中创建了一个问题。当我得到问题的答案时,我会在这里更新

0 投票
3 回答
8983 浏览

scala - Spark DataFrame 在 OneHotEncoder 中处理空字符串

我正在将一个 CSV 文件(使用 spark-csv)导入一个DataFrame具有空String值的文件中。应用时OneHotEncoder,应用程序崩溃并出现错误requirement failed: Cannot have an empty string for name.。有没有办法解决这个问题?

我可以重现Spark ml页面上提供的示例中的错误:

这很烦人,因为缺失/空值是一种高度通用的情况。

在此先感谢,尼基尔

0 投票
0 回答
302 浏览

apache-spark - 使用 Pyspark (YARN) 1.3 创建 DataFrame -> 单个 CSV 文件 ('spark-csv')

我在 YARN 集群上的 Spark 1.3 上使用 Pyspark。我正在使用管理节点执行 Pyspark 命令来创建一个 DataFrame。然后,我试图将 Spark Dataframe 移动到管理节点上的单个 CSV,但我找不到该文件。指定我的“主”目录似乎不起作用,并且它始终提供 LOG 消息,使我相信该文件已在集群中的另一个节点上完成。然而,我搜索了所有节点但没有找到 .csv 文件;即使我多次尝试执行“.save”命令,它说它不能追加,这让我相信该文件实际上是在某个地方创建的。以下是执行 csv 命令后的部分日志:

我在命令行启动这个:

然后执行以下操作以创建 Dataframe 并尝试在 PySpark 中导出。

0 投票
17 回答
332492 浏览

apache-spark - 如何在 Spark Dataframe 中显示完整的列内容?

我正在使用 spark-csv 将数据加载到 DataFrame 中。我想做一个简单的查询并显示内容:

col 似乎被截断:

如何显示列的全部内容?

0 投票
0 回答
1418 浏览

python-2.7 - 传递压缩文件时,Spark-csv 返回并清空 DataFrame

我希望将一些压缩的 csv 文件消耗到 DataFrames 中,以便最终可以使用 SparkSQL 查询它们。我通常只会使用 sc.textFile() 来使用文件并使用各种 map() 转换来解析和转换数据,但是有问题的文件有一些难以解析的值。特别是,有引号封装的值在其中包含逗号,这破坏了在 map() 转换中使用 split() 函数的选项。

这就是我正在做的事情:

我使用 spark-csv 和 commons-csv jar 启动 spark

我创建了一个模式变量,因为我的 csv 没有标题,然后进行以下调用

当您使用apps_df.printSchema() 时,这确实会返回一个具有正确架构的DataFrame 对象,但apps_df.count() 返回0 而apps_df.first() 什么也不返回。

编辑:

这是我的,希望是可重复的例子

full_filepath替换为目录中的 .csv 文件

full_gzip_filepath替换为目录中 csv 文件的 .gz 版本

这将返回:

如果您还运行接下来的几个命令,您将看到该文件可以通过 pandas 正确使用

这将返回:

0 投票
2 回答
4506 浏览

apache-spark - 使用带有 DataFrames 的 spark-csv 获取 NullPointerException

通过spark-csv README运行示例 Java 代码,例如 import org.apache.spark.sql.SQLContext; 导入 org.apache.spark.sql.types.*;

它没有开箱即用地编译,因此经过一番争论,我通过将不正确的FooType语法更改为DataTypes.FooType并将 StructFields 作为new StructField[];传递来编译它。metadata编译器在构造函数中请求了第四个参数,StructField但我很难找到关于它的含义的文档(javadocs 描述了它的用例,但并没有真正决定在 StructField 构造期间传递什么)。使用以下代码,它现在会一直运行,直到出现任何副作用方法,例如collect()

我得到以下异常:

知道有什么问题吗?

0 投票
1 回答
477 浏览

apache-spark - spark-csv 中的自定义模式在 spark 1.4.1 中抛出错误

我试图在 spark 1.4.1 的 spark-shell 中使用 spark -csv 包处理 CSV 文件。

0 投票
1 回答
1421 浏览

apache-spark - 使用 spark-csv 写入火花数据帧失败

我正在尝试使用 pysparkn 和 spark-csv 使用以下代码将 spark 数据帧写入 s3

但是,我收到“输出目录已经存在”的错误,我确定在作业开始之前输出目录不存在,我尝试使用不同的输出目录名称运行,但写入仍然失败。

如果我在作业失败后查看 s3 存储桶,我发现 spark 写入的部分文件很少,但是当它尝试写入更多时它失败了,脚本在本地运行良好,我在 aws 集群上使用 10 个 spark 执行器。有谁知道这段代码有什么问题?