问题标签 [spark-excel]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1685 浏览

scala - 使用 Spark 将数据框写入 Excel 工作表中的多个选项卡

我一直在使用 Spark-excel ( https://github.com/crealytics/spark-excel ) 将输出写入 Excel 工作表的单个工作表。但是,我无法将输出写入不同的工作表(选项卡)。

任何人都可以提出任何替代方案吗?

谢谢,赛

0 投票
2 回答
1846 浏览

java - 使用 Spark Java Excel 从 excel 文件中加载数据

我想使用 Spark Session 2.2 从 HDFS 中的 Excel 文件加载数据。下面是我的 Java 代码和我得到的异常。

我得到了这个例外:

java.lang.NoSuchMethodError: org.apache.poi.ss.usermodel.Workbook.close()V at com.crealytics.spark.excel.ExcelRelation.com$crealytics$spark$excel$ExcelRelation$$getExcerpt(ExcelRelation.scala: 81) 在 com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1.apply(ExcelRelation.scala:27​​0) 在 com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1.apply(ExcelRelation.scala: 269) 在 com.crealytics.spark.excel.ExcelRelation.inferSchema(ExcelRelation.scala:269) 在 com.crealytics.spark.excel.ExcelRelation.(ExcelRelation.scala: 97) 在 com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:35) 在 com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:14) 在 com.crealytics.spark.excel.DefaultSource .createRelation(DefaultSource.scala:8) at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:330) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)

0 投票
2 回答
1788 浏览

excel - Spark:使用 spark-excel 跳过顶行

我有一个顶部有损坏行的excel文件(前3行)需要跳过,我正在使用spark-excel库来读取excel文件,在他们的github上没有这样的功能,所以有没有办法实现这个?

这是我的代码:

0 投票
1 回答
817 浏览

java - 使用 sparkexcel 库读取重复的列名 excel 文件时出现异常。如何克服这个问题

我正在使用 spark-excel(com.crealytics.spark.excel) 库来读取 excel 文件。如果 excel 文件中没有重复的列,则库工作正常。如果 excel 文件中出现任何重复的列名,则抛出以下异常。

如何克服这个错误?

是否有任何解决方法来克服这个问题?

线程“主”org.apache.spark.sql.AnalysisException 中的异常:在数据模式中发现重复的列:`净领土`;在 org.apache.spark.sql.util.SchemaUtils$.checkColumnNameDuplication(SchemaUtils.scala:85)

0 投票
1 回答
671 浏览

java - Spark excel:读取带有多行标题的excel文件抛出异常:方法抛出'scala.MatchError'异常

我正在使用spark-excel读取 excel 文件,问题是每当我使用带有多行标题的文件时,数据集的 QueryExecution 都会引发异常Method threw 'scala.MatchError' exception. Cannot evaluate org.apache.spark.sql.execution.QueryExecution.toString()

目前唯一的解决方案是将多行标题替换为一行,我也尝试使用替换数据集中的列名withColumnRenamed,但没有奏效,有什么办法解决这个问题吗?

这是完整的堆栈:

更新

重现步骤:

导致此错误的文件: 文件

0 投票
1 回答
1431 浏览

excel - 使用scala从excel构造一个数据框

我正在寻找使用scala从spark中的excel文件构造数据框的方法?我在下面提到了 SO 帖子,并尝试对附加的 excel 表进行操作。

Excel工作表样本

如何从 Scala Spark 中的 Excel (xls,xlsx) 文件构造数据框?

不幸的是,以下修改后的代码并未读取 excel 中的所有列。

我在这里错过了什么吗?

我的目标是从随机分布的表格中获取所有数据,然后从中获取特定值。一些单元格可以是空白的。

我可以使用 apache poi 在 scala 中执行此操作,获取所需的值,转换为 csv,然后加载到数据帧中。

但是,我正在寻找一种方法来使用 scala 将 excel 表直接解析为数据框,遍历数据框行并应用条件来获取所需的行/列。

ps 对不起,我不知道如何从我的本地机器附加一个 excel 文件。

谢谢!

0 投票
0 回答
99 浏览

java - 编写数据集to excel 给出 ChangeFileModeByMask 错误 (5): Access is denied ERROR

我创建了一个Row如下类型的数据集,

我想将此转换为 Excel 工作表,因此我使用下面的代码进行 Excel 转换

但我越来越

ChangeFileModeByMask 错误(5):访问被拒绝

如何解决此问题,因为我有权写入c:文件夹并且仍然为 0kb 的空文件“.resultset.xlsx.crc”和“resultset.xlsx”

0 投票
0 回答
2505 浏览

excel - 无法使用 spark-excel 库读取 .xlsx 文件

我正在尝试读取 .xlsx 文件并使用 spark-excel 将其转换为 Dataframe。但是当我尝试读取文件时,它会抛出一个

java.lang.IllegalArgumentException:类 org.apache.commons.compress.archivers.zip.ZipArchiveInputStream 的 InputStream 未实现 InputStreamStatistics

我创建了一个具有以下依赖项的 Scala 应用程序:

构建.sbt:

读取Excel.scala

当我尝试运行上述程序时,它失败并出现以下异常:

0 投票
1 回答
257 浏览

scala - 如果 Excel 文件是我在数据块中的源文件,如何创建数据框

我有一个 Excel 文件作为源文件,我想从 Excel 文件中读取数据并使用 Databricks 转换 DataFrame 中的数据。我是 Scala 的新手。

0 投票
1 回答
1034 浏览

excel - 在 Spark 中读取带有整数列的 Excel 文件

我有一组 Excel 表,我试图通过com.crealytics.spark.excel包通过 spark 读取。在我的 excel 表中,我有一列调查 ID,其中包含整数 ID。当我通过 spark 读取数据时,我看到这些值被转换为双精度值。

从 excel 表中读取时如何保留整数值的格式?

这是我尝试过的:

实际价值

在此处输入图像描述

通过 Spark 读取的值

如果我将列转换为整数,我会得到所需的格式化数据。但是有没有更好的方法来做到这一点?