我想将 Spark DataFrame 保存到 Excel 中。
我通过在每个节点中保存 csv 文件并使用 DataBricks spark-csv 库将其附加到服务器中来为 csv 完成此操作。
我不知道如何为 Excel 做这件事。有人请建议和想法。
我想将 Spark DataFrame 保存到 Excel 中。
我通过在每个节点中保存 csv 文件并使用 DataBricks spark-csv 库将其附加到服务器中来为 csv 完成此操作。
我不知道如何为 Excel 做这件事。有人请建议和想法。
%sh pip install XlsxWriter
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
import shutil, sys ,os
import pandas as pd
import xlsxwriter
df = spark.createDataFrame(
[
(1, 'foo'), # create your data here, be consistent in the types.
(2, 'bar'),
(3, 'bar1'),
(4, 'bar2'),
],
['id', 'txt'] # add your columns label here
)
adls_path="/dbfs/mnt/"
pd_df=df.toPandas()
pd_df.to_excel('test.xlsx',engine='xlsxwriter')
shutil.move('test.xlsx', adls_path)
您可以使用 Spark 中 HadoopOffice 库的数据源: https ://github.com/zuinnote/hadoopoffice
但是,如果要存储的数据量非常大,那么它就没有多大意义,因为 Excel 本身在处理大数据文件时存在问题。