使用考拉时,对所有 Null / NaN 值的数据帧求和的好方法是什么?
或以另一种方式陈述
我如何按空值总数的列返回一个列表。如果可能,我试图避免将数据框转换为 spark 或 pandas。
注意:.sum()
忽略考拉中的空值(skipna:boolean,默认 True - 不能更改为 False)。所以跑步df1.isnull().sum()
是不可能的
numpy 被列为替代方案,但由于数据框位于考拉中,我观察到 .sum() 仍然省略了 nan 值。
免责声明:我知道我可以在 Spark 上运行 pandas,但我知道这会适得其反。我犹豫从 Spark 或 Pandas 数据帧中求和,然后将数据帧转换为考拉(我认为这又是浪费资源)。我正在使用一个包含 73 列和 4m 行的数据集。