问题标签 [spark-csv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2161 浏览

dataframe - PySpark:如何比较两个数据帧

我有两个从两个 csv 文件加载的数据框。例子:

我想得到:

我一直在摆弄 dataframe foreach 方法,但未能让它工作......作为一个火花新手,如果有任何线索,我将不胜感激。

干杯!

拉斐尔

0 投票
0 回答
224 浏览

scala - 如何使用 sbt 下载依赖 jar?

Spark-csv 2.10使用成功构建sbt但每次启动 scala 服务时都需要提供 --packages 标签。有没有其他方法可以包含包而不是这个标签?

谢谢

0 投票
0 回答
261 浏览

python - python-Spark IllegalArgumentException 当通过 spark-csv_2.10-1.3.0 使用 DateType 将 CSV 加载到 DataFrame 时出现 Python-Spark IllegalArgumentException

我正在尝试使用 spark-csv_2.10-1.3.0 将 csv 文件加载到数据帧

架构:

问题:

0 投票
2 回答
34255 浏览

python - 如何估计pyspark中的数据框实际大小?

如何确定数据框大小?

现在我估计数据框的实际大小如下:

它太慢了,我正在寻找更好的方法。

0 投票
1 回答
3067 浏览

apache-spark - Spark将df保存为csv会引发错误

我正在使用 pyspark 并加载了一个数据框。当我尝试将其保存为 CSV 文件时,出现以下错误。我像这样初始化火花:

错误:

0 投票
2 回答
448 浏览

apache-spark - 将 Sparksql 和 SparkCSV 与 SparkJob 服务器一起使用

我正在尝试 JAR 一个简单的 scala 应用程序,该应用程序利用 SparlCSV 和 spark sql 创建存储在 HDFS 中的 CSV 文件的数据框,然后只需进行一个简单的查询即可返回 CSV 文件中特定列的 Max 和 Min。

当我使用 sbt 命令创建 JAR 时出现错误,稍后我将 curl 到 jobserver /jars 文件夹并从远程机器执行

代码:

错误:

我猜主要问题是它缺少 sparkCSV 和 sparkSQL 的依赖项,但我不知道在使用 sbt 编译代码之前将依赖项放在哪里。

我发出以下命令来打包应用程序,源代码放在“ ashesh_jobs ”目录下

我希望有人能帮我解决这个问题。你能指定我可以指定依赖项和输入格式的文件吗

0 投票
2 回答
337 浏览

r - spark-csv 与 SparkR 和 RStudio 分崩离析

我已经尝试了如何在 RStudio 上将 csv 文件加载到 SparkR 中的建议的几种排列?但我只能让 Spark 解决方案的内存工作:

上面的问题是,如果 file.csv 太大而无法放入内存,则会导致问题。(一个 hack 是加载一系列 csv 文件并在 sparkR 中 rbind。 )通过read.df读取 CSV 文件是首选。

如果我将 init 更改为:

正如为了使用read.df所建议的那样,无论我做什么 sparkR 现在都被冲洗掉了。

甚至

呕吐物:

SparkR 缺少什么精灵粉?

是否有更简单的方法来指定或确认正确的数据块设置2.11:1.2.0

有没有办法加载制表符分隔的文件或其他不需要数据块的格式?

PS 我注意到 H2O 与 R 集成起来更加愉快,并且不需要奥术咒语。sparkR 的人真的需要让启动 sparkR 成为 1 班轮恕我直言......

0 投票
0 回答
444 浏览

java - 将多行输入格式读取到 Spark 中的一条记录的最佳方法是什么?

下面是输入文件(csv)的样子:

Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7

下面是每行的列列表: (Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no)

所需的输出为数据框:

2008 年 7 月 1 日,8:53:57,25,7

基本上输入文件的每一行都有列名和值。

到目前为止,我尝试过的是:

当我运行上面的代码时,上面的代码出现问题 我得到一个空列表,如下所示(,,,)

当我改变

Carrier_campaign = data.split(",")(3)

Carrier_campaign = data.split(",")(2)

我得到以下输出,它有点接近 (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)

上面的代码如何无法从数据行中选择最后一列位置,但适用于列位置 0、1、2。

所以我的问题是——

  1. 上面的代码有什么问题

  2. 读取此多行输入并将其以表格格式加载到数据库的有效方法是什么

    感谢有关此的任何帮助/指示。谢谢。

0 投票
1 回答
935 浏览

pyspark - apache zeppelin 使用 pyspark 读取 csv 失败

我正在使用Zeppelin-Sandbox 0.5.6with Spark 1.6.1on Amazon EMR。我正在阅读csv位于s3. 问题是有时我在读取文件时出错。我需要多次重新启动解释器,直到它工作。我的代码没有任何变化。我无法恢复它,也无法判断它何时发生。

我的代码如下:

定义依赖:

使用spark-csv

错误信息:

一旦我读csvdataframe,其余代码就可以正常工作。

有什么建议吗?

谢谢!

0 投票
2 回答
1994 浏览

python - 在 PyCharm IDE 中添加 spark-csv 包

我已经通过 python 独立模式成功加载了 spark-csv 库

运行上面的命令

运行上述命令时,它会在此位置创建两个文件夹(jar 和缓存)

里面有两个文件夹。其中一个包含这些 jar 文件 - org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar

我想在 PyCharm(Windows 10)中加载这个库,它已经设置为运行 Spark 程序。所以我将 .ivy2 文件夹添加到Project Interpreter Path中。我得到的主要错误是:

完整的错误日志如下:

我已经将 jars 添加到项目解释器路径中。我哪里错了?请提出一些解决方案。提前致谢