我在 PySpark 中有一个数据框,其中包含空白空间、Null 和 Nan。我想删除具有任何这些的行。我尝试了以下命令,但是似乎没有任何效果。
myDF.na.drop().show()
myDF.na.drop(how='any').show()
下面是数据框:
+---+----------+----------+-----+-----+
|age| category| date|empId| name|
+---+----------+----------+-----+-----+
| 25|electronic|17-01-2018| 101| abc|
| 24| sports|16-01-2018| 102| def|
| 23|electronic|17-01-2018| 103| hhh|
| 23|electronic|16-01-2018| 104| yyy|
| 29| men|12-01-2018| 105| ajay|
| 31| kids|17-01-2018| 106|vijay|
| | Men| nan| 107|Sumit|
+---+----------+----------+-----+-----+
我错过了什么?处理 NULL、Nan 或空格以便在实际计算中没有问题的最佳方法是什么?