pyspark - Pyspark - 使用“useHeader”、“false”读取 excel 数据的问题

翻译自：https://stackoverflow.com/questions/65520514 2020-12-31T11:51:16.460

118 次

我正在尝试将一些 excel 数据读入 Pyspark Dataframe。我正在使用库：'com.crealytics:spark-excel_2.11:0.11.1'。

我的数据中没有标题。从 A 列开始读取时，我能够成功读取，但是当我尝试从下一行读取两列时 - 例如 [N，O]，我得到一个全为空的 Dataframe。

我的数据如下：

例如，从 A2:B4 读取时，我得到正确的数据框：

+-----+-----+
|  _c0|  _c1|
+-----+-----+
|data2|data6|
|data3|data7|
|data4|data8|
+-----+-----+

但是使用相同的代码，只需将 'dataAddress' 更改为 N2:O4，我得到带有空值的 Dataframe：

+----+----+
| _c0| _c1|
+----+----+
|null|null|
|null|null|
|null|null|
+----+----+

我的代码：

from pyspark.sql import SparkSession

from com.crealytics.spark.excel import *

spark = SparkSession.builder.appName("excel_try").enableHiveSupport().getOrCreate()


exldf = spark.read.format("com.crealytics.spark.excel")\
    .option("dataAddress","N2:O4")\
    .option("useHeader","false")\
    .option("inferSchema","true")\
    .load("/path/excel_false.xlsx")
 
 
exldf.show() 

spark.stop()

运行使用：

spark-submit --master yarn --packages com.crealytics:spark-excel_2.11:0.11.1 excel_false.py

有人可以帮忙解决吗？

pyspark - Pyspark - 使用“useHeader”、“false”读取 excel 数据的问题

0 回答 0

Related

Reference