我有一个 spark df,需要获取基本的描述性统计信息,如本例所示:
我的 spark 版本是 3.0.1 我运行了以下代码:
df.describe().show()
但它只输出数据,没有任何统计摘要。
如果您的 DataFrame 为空(我也在使用 Spark 3.0.1),则会发生这种情况。
试试这个工作示例:
from pyspark.sql.functions import rand, randn
df = sqlContext.range(0, 10).withColumn('uniform', rand(seed=10)).withColumn('normal', randn(seed=27))
df.describe().show()
现在尝试使用一个空的 DataFrame:
df = spark.createDataFrame(([],))
df.describe().show()