问题标签 [spark-excel]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
38 浏览

scala - 如何将从excel读取的数据框传递给spark-scala中的另一个变量?

我有一个数据框var cache :DataFrame = _。作为我给出的初始运行cache = existingDF,现有的df是使用crealytics.spark.excel从excel中读取的。但在随后的运行中,existingDF 会得到另一个更新的 excel 文件,应该是cache = cache.union(existingDF) 但是我似乎只在缓存中得到了existingDF。简而言之,每当我调用缓存时,它似乎都会读取 excel。我该如何避免这种情况?将其读取为 csv 时不存在此问题。(当我.persist在 csv 读取时使用它时它就在那里,但当我删除 .persist 时得到修复更简单:

变量 a 总是与 b 一起更新,因此它永远不会与 b 不同。我该如何避免这种情况?

0 投票
0 回答
118 浏览

pyspark - Pyspark - 使用“useHeader”、“false”读取 excel 数据的问题

我正在尝试将一些 excel 数据读入 Pyspark Dataframe。我正在使用库:'com.crealytics:spark-excel_2.11:0.11.1'。

我的数据中没有标题。从 A 列开始读取时,我能够成功读取,但是当我尝试从下一行读取两列时 - 例如 [N,O],我得到一个全为空的 Dataframe。

我的数据如下:

在此处输入图像描述

例如,从 A2:B4 读取时,我得到正确的数据框:

但是使用相同的代码,只需将 'dataAddress' 更改为 N2:O4,我得到带有空值的 Dataframe:

我的代码:

运行使用:

有人可以帮忙解决吗?

0 投票
0 回答
107 浏览

scala - 将 Spark 数据集连同分区一起写入 Excel 文件

我有一个类似于以下结构的数据集:

我正在尝试使用 Spark Java 中的以下代码将数据集写入 HDFS 中的文件。

正常工作案例:

当我通过 use.format("csv")时,上面的代码会创建一个文件夹,其名称与传入date=2021-04-14的路径中的名称完全相同。结束文件的完整路径是. 此外,该列已从文件中删除,因为它已被分区。/saveLoc/sales.save()/saveLoc/sales/date=2021-04-14/someFileName.csvdate

我需要做什么:

但是,当我使用 时,它只会在文件夹中.format("com.crealytics.spark.excel")创建一个名为的普通文件,并且不会从最终文件中删除 partitioned(date) 列。这是否意味着它没有在“日期​​”列上进行分区?创建的文件的完整路径是. 请注意,它使用文件 sales 覆盖文件“sales” 。salessaveLoc/saveLoc/sales

此处描述了使用的 Excel 插件:https ://github.com/crealytics/spark-excel

在excel中写入时如何进行分区?换句话说,我怎样才能让它的行为与 csv 的情况完全一样?

使用的版本:

谢谢。

0 投票
1 回答
26 浏览

java - 在 Yarn 上运行 spark 作业时,HDFS Excel 行数减少

在本地(IntelliJ IDEA)中运行相同的作业时,输出计数很好(例如 -55)。但是当使用 spark-submit 在 Yarn 上提交它时,只得到几行(行 -12)。

当使用 master - yarn 获取部分行时。并且当使用本地时 - 能够读取所有行但得到异常 -Caused by: java.sql.SQLFeatureNotSupportedException: [Simba][JDBC](10220) Driver not capable.

在集群上运行时,似乎无法从 HDFS 读取所有块。

任何帮助都感激不尽。谢谢

0 投票
1 回答
50 浏览

apache-spark - 读取火花中的百分比值

我有一个 xlsx 文件,它只有一列;

当我使用 Apache-Spark 阅读这篇文章时,我得到的是,

预期输出为 ,

我的代码 -

我不想使用强制转换或将 inferschema 转换为 false,我想要一种将百分比值读取为百分比而不是双精度值或字符串的方法。

0 投票
1 回答
106 浏览

excel - 为什么数据框在使用 com.crealytics.spark.excel 读取时不会在 spark 中抛出带有“FAILFAST”选项的 RunTimeException?

从不正确/损坏的数据中读取(使用 show() 调用操作)时,上述 pyspark 读取 excel 数据帧片段没有失败/抛出运行时异常。但是 option("mode", "FAILFAST") 对于 CSV 工作正常,但是当我使用 com.crealytics.spark.excel jar 时,我遇到了问题,即它没有失败的代码并通过减去不正确/损坏的数据来给出结果。

有没有人遇到同样的问题?

提前致谢!