问题标签 [spark-csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataframe - PySpark:如何比较两个数据帧
我有两个从两个 csv 文件加载的数据框。例子:
我想得到:
我一直在摆弄 dataframe foreach 方法,但未能让它工作......作为一个火花新手,如果有任何线索,我将不胜感激。
干杯!
拉斐尔
scala - 如何使用 sbt 下载依赖 jar?
Spark-csv 2.10
使用成功构建sbt
但每次启动 scala 服务时都需要提供 --packages 标签。有没有其他方法可以包含包而不是这个标签?
谢谢
python - python-Spark IllegalArgumentException 当通过 spark-csv_2.10-1.3.0 使用 DateType 将 CSV 加载到 DataFrame 时出现 Python-Spark IllegalArgumentException
我正在尝试使用 spark-csv_2.10-1.3.0 将 csv 文件加载到数据帧
架构:
问题:
python - 如何估计pyspark中的数据框实际大小?
如何确定数据框大小?
现在我估计数据框的实际大小如下:
它太慢了,我正在寻找更好的方法。
apache-spark - Spark将df保存为csv会引发错误
我正在使用 pyspark 并加载了一个数据框。当我尝试将其保存为 CSV 文件时,出现以下错误。我像这样初始化火花:
错误:
apache-spark - 将 Sparksql 和 SparkCSV 与 SparkJob 服务器一起使用
我正在尝试 JAR 一个简单的 scala 应用程序,该应用程序利用 SparlCSV 和 spark sql 创建存储在 HDFS 中的 CSV 文件的数据框,然后只需进行一个简单的查询即可返回 CSV 文件中特定列的 Max 和 Min。
当我使用 sbt 命令创建 JAR 时出现错误,稍后我将 curl 到 jobserver /jars 文件夹并从远程机器执行
代码:
错误:
我猜主要问题是它缺少 sparkCSV 和 sparkSQL 的依赖项,但我不知道在使用 sbt 编译代码之前将依赖项放在哪里。
我发出以下命令来打包应用程序,源代码放在“ ashesh_jobs ”目录下
我希望有人能帮我解决这个问题。你能指定我可以指定依赖项和输入格式的文件吗
r - spark-csv 与 SparkR 和 RStudio 分崩离析
我已经尝试了如何在 RStudio 上将 csv 文件加载到 SparkR 中的建议的几种排列?但我只能让 Spark 解决方案的内存工作:
上面的问题是,如果 file.csv 太大而无法放入内存,则会导致问题。(一个 hack 是加载一系列 csv 文件并在 sparkR 中 rbind。 )通过read.df读取 CSV 文件是首选。
如果我将 init 更改为:
正如为了使用read.df所建议的那样,无论我做什么 sparkR 现在都被冲洗掉了。
甚至
呕吐物:
SparkR 缺少什么精灵粉?
是否有更简单的方法来指定或确认正确的数据块设置2.11:1.2.0?
有没有办法加载制表符分隔的文件或其他不需要数据块的格式?
PS 我注意到 H2O 与 R 集成起来更加愉快,并且不需要奥术咒语。sparkR 的人真的需要让启动 sparkR 成为 1 班轮恕我直言......
java - 将多行输入格式读取到 Spark 中的一条记录的最佳方法是什么?
下面是输入文件(csv)的样子:
Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7
下面是每行的列列表: (Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no)
所需的输出为数据框:
2008 年 7 月 1 日,8:53:57,25,7
基本上输入文件的每一行都有列名和值。
到目前为止,我尝试过的是:
当我运行上面的代码时,上面的代码出现问题 我得到一个空列表,如下所示(,,,)
当我改变
Carrier_campaign = data.split(",")(3)
至
Carrier_campaign = data.split(",")(2)
我得到以下输出,它有点接近 (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)
上面的代码如何无法从数据行中选择最后一列位置,但适用于列位置 0、1、2。
所以我的问题是——
上面的代码有什么问题
读取此多行输入并将其以表格格式加载到数据库的有效方法是什么
感谢有关此的任何帮助/指示。谢谢。
pyspark - apache zeppelin 使用 pyspark 读取 csv 失败
我正在使用Zeppelin-Sandbox 0.5.6
with Spark 1.6.1
on Amazon EMR
。我正在阅读csv
位于s3
. 问题是有时我在读取文件时出错。我需要多次重新启动解释器,直到它工作。我的代码没有任何变化。我无法恢复它,也无法判断它何时发生。
我的代码如下:
定义依赖:
使用spark-csv
:
错误信息:
一旦我读csv
入dataframe
,其余代码就可以正常工作。
有什么建议吗?
谢谢!
python - 在 PyCharm IDE 中添加 spark-csv 包
我已经通过 python 独立模式成功加载了 spark-csv 库
运行上述命令时,它会在此位置创建两个文件夹(jar 和缓存)
里面有两个文件夹。其中一个包含这些 jar 文件 - org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar
我想在 PyCharm(Windows 10)中加载这个库,它已经设置为运行 Spark 程序。所以我将 .ivy2 文件夹添加到Project Interpreter Path中。我得到的主要错误是:
完整的错误日志如下:
我已经将 jars 添加到项目解释器路径中。我哪里错了?请提出一些解决方案。提前致谢