我正在尝试将一些 excel 数据读入 Pyspark Dataframe。我正在使用库:'com.crealytics:spark-excel_2.11:0.11.1'。
我的数据中没有标题。从 A 列开始读取时,我能够成功读取,但是当我尝试从下一行读取两列时 - 例如 [N,O],我得到一个全为空的 Dataframe。
我的数据如下:
例如,从 A2:B4 读取时,我得到正确的数据框:
+-----+-----+
| _c0| _c1|
+-----+-----+
|data2|data6|
|data3|data7|
|data4|data8|
+-----+-----+
但是使用相同的代码,只需将 'dataAddress' 更改为 N2:O4,我得到带有空值的 Dataframe:
+----+----+
| _c0| _c1|
+----+----+
|null|null|
|null|null|
|null|null|
+----+----+
我的代码:
from pyspark.sql import SparkSession
from com.crealytics.spark.excel import *
spark = SparkSession.builder.appName("excel_try").enableHiveSupport().getOrCreate()
exldf = spark.read.format("com.crealytics.spark.excel")\
.option("dataAddress","N2:O4")\
.option("useHeader","false")\
.option("inferSchema","true")\
.load("/path/excel_false.xlsx")
exldf.show()
spark.stop()
运行使用:
spark-submit --master yarn --packages com.crealytics:spark-excel_2.11:0.11.1 excel_false.py
有人可以帮忙解决吗?