问题标签 [spark-csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 使用 spark-csv 编写单个 CSV 文件
我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个 CSV,但不能,它正在创建一个文件夹。
需要一个 Scala 函数,该函数将采用路径和文件名等参数并写入该 CSV 文件。
scala - spark-csv 包中的 inferSchema
当 CSV 在 Spark 中被读取为数据框时,所有列都被读取为字符串。有什么办法可以得到实际的列类型吗?
我有以下 csv 文件
我已使用以下代码阅读了 CSV
所有列都被读取为字符串。我希望将years_of_experience列读取为int并将DOB读取为date
请注意,我已将选项inferSchema设置为true。
我正在使用最新版本(1.0.3)的 spark-csv 包
我在这里错过了什么吗?
scala - 在 spark-shell 中使用 spark-csv 包读取 CSV
我正在尝试使用spark-csv从 spark-shell 中的 aws s3 读取 csv。
以下是我执行的步骤。使用以下命令启动 spark-shell
bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0
在 shell 中,执行以下 scala 代码
收到以下错误
我在这里想念什么?请注意,我可以使用
相同的 scala 代码在databricks 笔记本中也可以正常工作
scala - Spark DataFrame 在 OneHotEncoder 中处理空字符串
我正在将一个 CSV 文件(使用 spark-csv)导入一个DataFrame
具有空String
值的文件中。应用时OneHotEncoder
,应用程序崩溃并出现错误requirement failed: Cannot have an empty string for name.
。有没有办法解决这个问题?
我可以重现Spark ml页面上提供的示例中的错误:
这很烦人,因为缺失/空值是一种高度通用的情况。
在此先感谢,尼基尔
apache-spark - 使用 Pyspark (YARN) 1.3 创建 DataFrame -> 单个 CSV 文件 ('spark-csv')
我在 YARN 集群上的 Spark 1.3 上使用 Pyspark。我正在使用管理节点执行 Pyspark 命令来创建一个 DataFrame。然后,我试图将 Spark Dataframe 移动到管理节点上的单个 CSV,但我找不到该文件。指定我的“主”目录似乎不起作用,并且它始终提供 LOG 消息,使我相信该文件已在集群中的另一个节点上完成。然而,我搜索了所有节点但没有找到 .csv 文件;即使我多次尝试执行“.save”命令,它说它不能追加,这让我相信该文件实际上是在某个地方创建的。以下是执行 csv 命令后的部分日志:
我在命令行启动这个:
然后执行以下操作以创建 Dataframe 并尝试在 PySpark 中导出。
apache-spark - 如何在 Spark Dataframe 中显示完整的列内容?
我正在使用 spark-csv 将数据加载到 DataFrame 中。我想做一个简单的查询并显示内容:
col 似乎被截断:
如何显示列的全部内容?
python-2.7 - 传递压缩文件时,Spark-csv 返回并清空 DataFrame
我希望将一些压缩的 csv 文件消耗到 DataFrames 中,以便最终可以使用 SparkSQL 查询它们。我通常只会使用 sc.textFile() 来使用文件并使用各种 map() 转换来解析和转换数据,但是有问题的文件有一些难以解析的值。特别是,有引号封装的值在其中包含逗号,这破坏了在 map() 转换中使用 split() 函数的选项。
这就是我正在做的事情:
我使用 spark-csv 和 commons-csv jar 启动 spark
我创建了一个模式变量,因为我的 csv 没有标题,然后进行以下调用
当您使用apps_df.printSchema() 时,这确实会返回一个具有正确架构的DataFrame 对象,但apps_df.count() 返回0 而apps_df.first() 什么也不返回。
编辑:
这是我的,希望是可重复的例子
将full_filepath替换为目录中的 .csv 文件
将full_gzip_filepath替换为目录中 csv 文件的 .gz 版本
这将返回:
如果您还运行接下来的几个命令,您将看到该文件可以通过 pandas 正确使用
这将返回:
apache-spark - 使用带有 DataFrames 的 spark-csv 获取 NullPointerException
通过spark-csv README运行示例 Java 代码,例如 import org.apache.spark.sql.SQLContext; 导入 org.apache.spark.sql.types.*;
它没有开箱即用地编译,因此经过一番争论,我通过将不正确的FooType
语法更改为DataTypes.FooType
并将 StructFields 作为new StructField[]
;传递来编译它。metadata
编译器在构造函数中请求了第四个参数,StructField
但我很难找到关于它的含义的文档(javadocs 描述了它的用例,但并没有真正决定在 StructField 构造期间传递什么)。使用以下代码,它现在会一直运行,直到出现任何副作用方法,例如collect()
:
我得到以下异常:
知道有什么问题吗?
apache-spark - spark-csv 中的自定义模式在 spark 1.4.1 中抛出错误
我试图在 spark 1.4.1 的 spark-shell 中使用 spark -csv 包处理 CSV 文件。
apache-spark - 使用 spark-csv 写入火花数据帧失败
我正在尝试使用 pysparkn 和 spark-csv 使用以下代码将 spark 数据帧写入 s3
但是,我收到“输出目录已经存在”的错误,我确定在作业开始之前输出目录不存在,我尝试使用不同的输出目录名称运行,但写入仍然失败。
如果我在作业失败后查看 s3 存储桶,我发现 spark 写入的部分文件很少,但是当它尝试写入更多时它失败了,脚本在本地运行良好,我在 aws 集群上使用 10 个 spark 执行器。有谁知道这段代码有什么问题?