0

我想将 Spark DataFrame 保存到 Excel 中。

我通过在每个节点中保存 csv 文件并使用 DataBricks spark-csv 库将其附加到服务器中来为 csv 完成此操作。

我不知道如何为 Excel 做这件事。有人请建议和想法。

4

2 回答 2

0
%sh pip install XlsxWriter

spark.conf.set("spark.sql.execution.arrow.enabled", "true")

import shutil, sys ,os
import pandas as pd
import xlsxwriter


df = spark.createDataFrame(
    [
        (1, 'foo'), # create your data here, be consistent in the types.
        (2, 'bar'),
      (3, 'bar1'),
      (4, 'bar2'),
    ],
    ['id', 'txt'] # add your columns label here
    )

    adls_path="/dbfs/mnt/"
       pd_df=df.toPandas()
       pd_df.to_excel('test.xlsx',engine='xlsxwriter')
       shutil.move('test.xlsx', adls_path)
于 2020-12-01T18:00:17.720 回答
0

您可以使用 Spark 中 HadoopOffice 库的数据源: https ://github.com/zuinnote/hadoopoffice

但是,如果要存储的数据量非常大,那么它就没有多大意义,因为 Excel 本身在处理大数据文件时存在问题。

于 2017-04-21T22:29:41.747 回答