apache-spark - 如何将火花数据框保存为excel格式？

Question

我想将 Spark DataFrame 保存到 Excel 中。

我通过在每个节点中保存 csv 文件并使用 DataBricks spark-csv 库将其附加到服务器中来为 csv 完成此操作。

我不知道如何为 Excel 做这件事。有人请建议和想法。

score 0 · Accepted Answer

%sh pip install XlsxWriter

spark.conf.set("spark.sql.execution.arrow.enabled", "true")

import shutil, sys ,os
import pandas as pd
import xlsxwriter


df = spark.createDataFrame(
    [
        (1, 'foo'), # create your data here, be consistent in the types.
        (2, 'bar'),
      (3, 'bar1'),
      (4, 'bar2'),
    ],
    ['id', 'txt'] # add your columns label here
    )

    adls_path="/dbfs/mnt/"
       pd_df=df.toPandas()
       pd_df.to_excel('test.xlsx',engine='xlsxwriter')
       shutil.move('test.xlsx', adls_path)

score 0 · Accepted Answer

您可以使用 Spark 中 HadoopOffice 库的数据源： https ://github.com/zuinnote/hadoopoffice

但是，如果要存储的数据量非常大，那么它就没有多大意义，因为 Excel 本身在处理大数据文件时存在问题。

apache-spark - 如何将火花数据框保存为excel格式？

2 回答 2

Related

Reference