问题标签 [spark-csv]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

136 问题

0 投票

15 回答

340557 浏览

scala - 使用 spark-csv 编写单个 CSV 文件

我正在使用https://github.com/databricks/spark-csv，我正在尝试编写单个 CSV，但不能，它正在创建一个文件夹。

需要一个 Scala 函数，该函数将采用路径和文件名等参数并写入该 CSV 文件。

2015-07-28T11:08:20.183

0 投票

1 回答

42347 浏览

scala - spark-csv 包中的 inferSchema

当 CSV 在 Spark 中被读取为数据框时，所有列都被读取为字符串。有什么办法可以得到实际的列类型吗？

我有以下 csv 文件

我已使用以下代码阅读了 CSV

所有列都被读取为字符串。我希望将years_of_experience列读取为int并将DOB读取为date

请注意，我已将选项inferSchema设置为true。

我正在使用最新版本（1.0.3）的 spark-csv 包

我在这里错过了什么吗？

scala apache-spark apache-spark-sql spark-csv

2015-07-30T09:08:17.543

0 投票

1 回答

1692 浏览

scala - 在 spark-shell 中使用 spark-csv 包读取 CSV

我正在尝试使用spark-csv从 spark-shell 中的 aws s3 读取 csv。

以下是我执行的步骤。使用以下命令启动 spark-shell

bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0

在 shell 中，执行以下 scala 代码

收到以下错误

我在这里想念什么？请注意，我可以使用

相同的 scala 代码在databricks 笔记本中也可以正常工作

在 spark-csv github 中创建了一个问题。当我得到问题的答案时，我会在这里更新

scala apache-spark spark-csv

2015-08-18T08:58:58.520

0 投票

3 回答

8983 浏览

scala - Spark DataFrame 在 OneHotEncoder 中处理空字符串

我正在将一个 CSV 文件（使用 spark-csv）导入一个DataFrame具有空String值的文件中。应用时OneHotEncoder，应用程序崩溃并出现错误requirement failed: Cannot have an empty string for name.。有没有办法解决这个问题？

我可以重现Spark ml页面上提供的示例中的错误：

这很烦人，因为缺失/空值是一种高度通用的情况。

在此先感谢，尼基尔

scala apache-spark apache-spark-mllib apache-spark-ml spark-csv

2015-10-12T20:36:11.457

0 投票

0 回答

302 浏览

apache-spark - 使用 Pyspark (YARN) 1.3 创建 DataFrame -> 单个 CSV 文件 ('spark-csv')

我在 YARN 集群上的 Spark 1.3 上使用 Pyspark。我正在使用管理节点执行 Pyspark 命令来创建一个 DataFrame。然后，我试图将 Spark Dataframe 移动到管理节点上的单个 CSV，但我找不到该文件。指定我的“主”目录似乎不起作用，并且它始终提供 LOG 消息，使我相信该文件已在集群中的另一个节点上完成。然而，我搜索了所有节点但没有找到 .csv 文件；即使我多次尝试执行“.save”命令，它说它不能追加，这让我相信该文件实际上是在某个地方创建的。以下是执行 csv 命令后的部分日志：

我在命令行启动这个：

然后执行以下操作以创建 Dataframe 并尝试在 PySpark 中导出。

apache-spark pyspark spark-csv

2015-11-12T22:22:22.523

0 投票

17 回答

332492 浏览

apache-spark - 如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 spark-csv 将数据加载到 DataFrame 中。我想做一个简单的查询并显示内容：

col 似乎被截断：

如何显示列的全部内容？

apache-spark dataframe spark-csv output-formatting

2015-11-16T19:17:44.310

0 投票

0 回答

1418 浏览

python-2.7 - 传递压缩文件时，Spark-csv 返回并清空 DataFrame

我希望将一些压缩的 csv 文件消耗到 DataFrames 中，以便最终可以使用 SparkSQL 查询它们。我通常只会使用 sc.textFile() 来使用文件并使用各种 map() 转换来解析和转换数据，但是有问题的文件有一些难以解析的值。特别是，有引号封装的值在其中包含逗号，这破坏了在 map() 转换中使用 split() 函数的选项。

这就是我正在做的事情：

我使用 spark-csv 和 commons-csv jar 启动 spark

我创建了一个模式变量，因为我的 csv 没有标题，然后进行以下调用

当您使用apps_df.printSchema() 时，这确实会返回一个具有正确架构的DataFrame 对象，但apps_df.count() 返回0 而apps_df.first() 什么也不返回。

编辑：

这是我的，希望是可重复的例子

将full_filepath替换为目录中的 .csv 文件

将full_gzip_filepath替换为目录中 csv 文件的 .gz 版本

这将返回：

如果您还运行接下来的几个命令，您将看到该文件可以通过 pandas 正确使用

这将返回：

python-2.7 csv apache-spark pyspark spark-csv

2015-11-25T01:08:12.617

0 投票

2 回答

4506 浏览

apache-spark - 使用带有 DataFrames 的 spark-csv 获取 NullPointerException

通过spark-csv README运行示例 Java 代码，例如 import org.apache.spark.sql.SQLContext; 导入 org.apache.spark.sql.types.*；

它没有开箱即用地编译，因此经过一番争论，我通过将不正确的FooType语法更改为DataTypes.FooType并将 StructFields 作为new StructField[];传递来编译它。metadata编译器在构造函数中请求了第四个参数，StructField但我很难找到关于它的含义的文档（javadocs 描述了它的用例，但并没有真正决定在 StructField 构造期间传递什么）。使用以下代码，它现在会一直运行，直到出现任何副作用方法，例如collect()：

我得到以下异常：

知道有什么问题吗？

apache-spark spark-dataframe spark-csv

2015-12-21T03:50:51.817

0 投票

1 回答

477 浏览

apache-spark - spark-csv 中的自定义模式在 spark 1.4.1 中抛出错误

我试图在 spark 1.4.1 的 spark-shell 中使用 spark -csv 包处理 CSV 文件。

apache-spark spark-dataframe spark-csv

2015-12-21T14:41:08.673

0 投票

1 回答

1421 浏览

apache-spark - 使用 spark-csv 写入火花数据帧失败

我正在尝试使用 pysparkn 和 spark-csv 使用以下代码将 spark 数据帧写入 s3

但是，我收到“输出目录已经存在”的错误，我确定在作业开始之前输出目录不存在，我尝试使用不同的输出目录名称运行，但写入仍然失败。

如果我在作业失败后查看 s3 存储桶，我发现 spark 写入的部分文件很少，但是当它尝试写入更多时它失败了，脚本在本地运行良好，我在 aws 集群上使用 10 个 spark 执行器。有谁知道这段代码有什么问题？

apache-spark pyspark spark-csv

2015-12-24T02:32:50.100

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-csv]

Reference