问题标签 [spark-csv]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

136 问题

0 投票

1 回答

2161 浏览

dataframe - PySpark：如何比较两个数据帧

我有两个从两个 csv 文件加载的数据框。例子：

我想得到：

我一直在摆弄 dataframe foreach 方法，但未能让它工作......作为一个火花新手，如果有任何线索，我将不胜感激。

干杯!

拉斐尔

2016-04-25T18:25:18.417

0 投票

0 回答

224 浏览

scala - 如何使用 sbt 下载依赖 jar？

Spark-csv 2.10使用成功构建sbt但每次启动 scala 服务时都需要提供 --packages 标签。有没有其他方法可以包含包而不是这个标签？

谢谢

scala apache-spark sbt spark-csv

2016-05-02T06:48:06.743

0 投票

0 回答

261 浏览

python - python-Spark IllegalArgumentException 当通过 spark-csv_2.10-1.3.0 使用 DateType 将 CSV 加载到 DataFrame 时出现 Python-Spark IllegalArgumentException

我正在尝试使用 spark-csv_2.10-1.3.0 将 csv 文件加载到数据帧

架构：

问题：

python csv pyspark spark-dataframe spark-csv

2016-05-04T18:11:19.177

0 投票

2 回答

34255 浏览

python - 如何估计pyspark中的数据框实际大小？

如何确定数据框大小？

现在我估计数据框的实际大小如下：

它太慢了，我正在寻找更好的方法。

python apache-spark dataframe spark-csv

2016-05-06T16:38:51.060

0 投票

1 回答

3067 浏览

apache-spark - Spark将df保存为csv会引发错误

我正在使用 pyspark 并加载了一个数据框。当我尝试将其保存为 CSV 文件时，出现以下错误。我像这样初始化火花：

错误：

apache-spark spark-csv

2016-05-16T17:37:06.500

0 投票

2 回答

448 浏览

apache-spark - 将 Sparksql 和 SparkCSV 与 SparkJob 服务器一起使用

我正在尝试 JAR 一个简单的 scala 应用程序，该应用程序利用 SparlCSV 和 spark sql 创建存储在 HDFS 中的 CSV 文件的数据框，然后只需进行一个简单的查询即可返回 CSV 文件中特定列的 Max 和 Min。

当我使用 sbt 命令创建 JAR 时出现错误，稍后我将 curl 到 jobserver /jars 文件夹并从远程机器执行

代码：

错误：

我猜主要问题是它缺少 sparkCSV 和 sparkSQL 的依赖项，但我不知道在使用 sbt 编译代码之前将依赖项放在哪里。

我发出以下命令来打包应用程序，源代码放在“ ashesh_jobs ”目录下

我希望有人能帮我解决这个问题。你能指定我可以指定依赖项和输入格式的文件吗

apache-spark sbt apache-spark-sql spark-jobserver spark-csv

2016-05-26T08:56:26.133

0 投票

2 回答

337 浏览

r - spark-csv 与 SparkR 和 RStudio 分崩离析

我已经尝试了如何在 RStudio 上将 csv 文件加载到 SparkR 中的建议的几种排列？但我只能让 Spark 解决方案的内存工作：

上面的问题是，如果 file.csv 太大而无法放入内存，则会导致问题。（一个 hack 是加载一系列 csv 文件并在 sparkR 中 rbind。）通过read.df读取 CSV 文件是首选。

如果我将 init 更改为：

正如为了使用read.df所建议的那样，无论我做什么 sparkR 现在都被冲洗掉了。

甚至

呕吐物：

SparkR 缺少什么精灵粉？

是否有更简单的方法来指定或确认正确的数据块设置2.11:1.2.0？

有没有办法加载制表符分隔的文件或其他不需要数据块的格式？

PS 我注意到 H2O 与 R 集成起来更加愉快，并且不需要奥术咒语。sparkR 的人真的需要让启动 sparkR 成为 1 班轮恕我直言......

r apache-spark sparkr spark-csv

2016-06-09T23:12:44.280

0 投票

0 回答

444 浏览

java - 将多行输入格式读取到 Spark 中的一条记录的最佳方法是什么？

下面是输入文件（csv）的样子：

Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7

下面是每行的列列表： （Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no）

所需的输出为数据框：

2008 年 7 月 1 日，8:53:57,25,7

基本上输入文件的每一行都有列名和值。

到目前为止，我尝试过的是：

当我运行上面的代码时，上面的代码出现问题 我得到一个空列表，如下所示（，，，）

当我改变

Carrier_campaign = data.split(",")(3)

至

Carrier_campaign = data.split(",")(2)

我得到以下输出，它有点接近 (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)

上面的代码如何无法从数据行中选择最后一列位置，但适用于列位置 0、1、2。

所以我的问题是——

上面的代码有什么问题
读取此多行输入并将其以表格格式加载到数据库的有效方法是什么

感谢有关此的任何帮助/指示。谢谢。

java python scala apache-spark spark-csv

2016-06-15T04:30:55.960

0 投票

1 回答

935 浏览

pyspark - apache zeppelin 使用 pyspark 读取 csv 失败

我正在使用Zeppelin-Sandbox 0.5.6with Spark 1.6.1on Amazon EMR。我正在阅读csv位于s3. 问题是有时我在读取文件时出错。我需要多次重新启动解释器，直到它工作。我的代码没有任何变化。我无法恢复它，也无法判断它何时发生。

我的代码如下：

定义依赖：

使用spark-csv：

错误信息：

一旦我读csv入dataframe，其余代码就可以正常工作。

有什么建议吗？

谢谢！

pyspark spark-dataframe amazon-emr apache-zeppelin spark-csv

2016-06-21T08:56:47.077

0 投票

2 回答

1994 浏览

python - 在 PyCharm IDE 中添加 spark-csv 包

我已经通过 python 独立模式成功加载了 spark-csv 库

运行上面的命令

运行上述命令时，它会在此位置创建两个文件夹（jar 和缓存）

里面有两个文件夹。其中一个包含这些 jar 文件 - org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar

我想在 PyCharm（Windows 10）中加载这个库，它已经设置为运行 Spark 程序。所以我将 .ivy2 文件夹添加到Project Interpreter Path中。我得到的主要错误是：

完整的错误日志如下：

我已经将 jars 添加到项目解释器路径中。我哪里错了？请提出一些解决方案。提前致谢

python apache-spark pycharm pyspark spark-csv

2016-06-27T09:31:05.047

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-csv]

Reference