我对 Spark 和 Scala 完全陌生,正在尝试使用 Databricks 中的数据集。
我加载了一个 csv 文件作为数据框。现在,我想查看每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。
我认为 R 有一些能够分析空值的包(例如 MICE 包),但在 Spark 和 Scala 中我找不到类似的东西。
我一直在尝试通过“null”值过滤数据框,但这似乎不起作用。下面的代码只返回不为空的小屋。用 != 交换 == 没有帮助。
train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()
有谁知道可以帮助或知道如何解决我上述问题的软件包,以便我可以手动过滤?