Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
相关问题:Pyspark:显示数据框列的直方图
我有一个很长的专栏,无法按照上述主题中的建议将其转换为 pandas(spark 内存不足)。
如何绘制此列的直方图?
您应该能够从随机采样的数据子集中获得具有代表性的直方图。也许从 1% 开始,如下所示:
dfs = df.sample(withReplacement=False, fraction=0.01, seed=None).toPandas()
然后看看内存是否允许dfs.hist()
dfs.hist()
在数据科学的许多应用中,对大列和数据帧进行下采样是完全合法的(尽管在寻找罕见事件时可能会很麻烦)。多次重复该过程(使用seed=None)并比较结果以让您放心。
seed=None