0

我对 Spark 和 Scala 完全陌生,正在尝试使用 Databricks 中的数据集。

我加载了一个 csv 文件作为数据框。现在,我想查看每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。

我认为 R 有一些能够分析空值的包(例如 MICE 包),但在 Spark 和 Scala 中我找不到类似的东西。

我一直在尝试通过“null”值过滤数据框,但这似乎不起作用。下面的代码只返回不为空的小屋。用 != 交换 == 没有帮助。

train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()

有谁知道可以帮助或知道如何解决我上述问题的软件包,以便我可以手动过滤?

此图显示了过滤前的数据集

此图像显示过滤不起作用

4

0 回答 0