问题标签 [spark-excel]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
8555 浏览

excel - 如何读取多个 Excel 文件并将它们连接到一个 Apache Spark DataFrame 中?

最近我想做 Spark 机器学习实验室 2016 年 Spark 峰会。培训视频在这里,导出的笔记本在这里。

实验室中使用的数据集可以从UCI Machine Learning Repository下载。它包含一组来自燃气发电厂中各种传感器的读数。格式为五张 xlsx 文件。

要在实验室中使用数据,我需要读取 Excel 文件中的所有工作表并将它们连接到一个 Spark DataFrame 中。在培训期间,他们使用的是 Databricks Notebook,但我使用的是带有 Scala 的 IntelliJ IDEA 并在控制台中评估代码。

第一步是将所有 Excel 工作表保存到名为 等的单独 xlsx 文件sheet1.xlxs中,sheet2.xlsx并将它们放入sheets目录中。

如何读取所有 Excel 文件并将它们连接到一个 Apache Spark DataFrame 中?

0 投票
2 回答
3234 浏览

apache-spark - 如何将火花数据框保存为excel格式?

我想将 Spark DataFrame 保存到 Excel 中。

我通过在每个节点中保存 csv 文件并使用 DataBricks spark-csv 库将其附加到服务器中来为 csv 完成此操作。

我不知道如何为 Excel 做这件事。有人请建议和想法。

0 投票
5 回答
79973 浏览

excel - 如何从 Scala Spark 中的 Excel (xls,xlsx) 文件构造数据框?

我有一个Excel(xlsx and xls)带有多张纸的大文件,我需要将其转换为RDDDataframe以便以后可以将其连接到其他文件dataframe。我正在考虑使用Apache POI并将其保存为 aCSV然后读csvdataframe. 但是,如果有任何库或 API 可以在此过程中提供帮助,那将很容易。非常感谢任何帮助。

0 投票
1 回答
2581 浏览

excel - What are the mandatory options for loading Excel file?

I have loaded an excel file from S3 using the below syntax, but I am wondering about the options that need to be set here.

Why is it mandatory to set all the below options for loading excel file? None of these options are mandatory for loading other file types like csv,del,json,avro etc.

I get the below error if any of the above options(except location) are not set:

Error message :

0 投票
2 回答
701 浏览

excel - spark excel reader错误打印的s3路径

我正在尝试从 Amazon S3 读取 excel 表,这是代码片段。但是它没有说文件不存在,尽管它在那里,我检查了路径中缺少斜杠(/)。

路径正确打印为: s3a://AKIAJDDDDDDACNA:A6voquDDDDDqNOUsONDy@my-test/test.xlsx

但是为什么在 spark 读取时缺少斜线?这是错误消息:

0 投票
2 回答
8150 浏览

apache-spark - 如何在 Spark Java 中将数据集对象写入 excel?

我正在使用com.crealytics.spark.excel包读取 excel 文件。下面是在 spark java 中读取 excel 文件的代码。

但我尝试使用相同的 (com.crealytics.spark.excel)包将数据集对象写入 spark java 中的 excel 文件。

但我得到了错误。

java.lang.RuntimeException:com.crealytics.spark.excel.DefaultSource 不允许创建表作为选择。

甚至我也尝试过使用org.zuinnote.spark.office.excel包。下面是代码。

我在pom.xml中添加了以下依赖项

但我得到了错误。

java.lang.IllegalAccessError: 试图访问方法 org.zuinnote.hadoop.office.format.mapreduce.ExcelFileOutputFormat.getSuffix(Ljava/lang/String;)Ljava/lang/String; 来自 org.zuinnote.spark.office.excel.ExcelOutputWriterFactory 类

请帮助我将数据集对象写入 spark java 中的 excel 文件。

0 投票
1 回答
1807 浏览

java - 如何在apache spark java中使用hadoop office库将数据集写入excel文件

目前我正在使用com.crealytics.spark.excel读取 Excel 文件,但使用此库我无法将数据集写入 Excel 文件。

这个链接说使用 hadoop office library ( org.zuinnote.spark.office.excel) 我们可以读写 Excel 文件

请帮助我将数据集对象写入 spark java 中的 excel 文件。

0 投票
1 回答
978 浏览

excel - 在 spark 2.0.0 中以流方式读取 excel 文件

我有一组 Excel 格式文件,当 Excel 文件加载到本地目录时,需要从 Spark(2.0.0) 中读取这些文件。这里使用的 Scala 版本是 2.11.8。

我试过使用readstreamSparkSession 的方法,但我无法以流的方式阅读。我能够静态读取 Excel 文件:

有没有其他方法可以从本地目录以流的方式读取 excel 文件?

任何答案都会有所帮助。

谢谢


所做的更改:


更新代码:

错误:

谁能帮我解决这个问题。

0 投票
2 回答
1414 浏览

excel - 在 Spark 1.X 中将 Excel 文件转换为 csv

是否有使用 Spark 1.X 将 Excel 文件转换为 csv 的工具?执行此教程时遇到此问题 https://github.com/ZuInnoTe/hadoopoffice/wiki/Read-Excel-document-using-Spark-1.x

0 投票
2 回答
784 浏览

excel - spark-excel 数据类型问题

我正在使用spark-excel包来处理使用 spark 2.2 的 ms excel 文件。某些文件无法作为 spark 数据帧加载,但出现以下异常。如果有人遇到此问题,您能否帮助解决此类数据类型问题?

经过分析,我发现如果列名不是字符串,它最终会给出以下异常,如果我手动将列名从整数更改为字符串,它工作正常。

代码:

例外: