我有一个非常大且稀疏的垃圾邮件 Twitter 帐户数据集,它需要我缩放 x 轴以便能够可视化各种变量的分布(直方图、kde 等)和 cdf(tweets_count、关注者/关注者的数量) ETC)。
> describe(spammers_class1$tweets_count)
var n mean sd median trimmed mad min max range skew kurtosis se
1 1 1076817 443.47 3729.05 35 57.29 43 0 669873 669873 53.23 5974.73 3.59
在这个数据集中,值 0 非常重要(实际上 0 应该具有最高的密度)。但是,对于对数刻度,这些值将被忽略。例如,我曾想过将值更改为 0.1,但如果垃圾邮件帐户有 10^-1 个关注者,这将毫无意义。
那么,python 和 matplotlib 中的解决方法是什么?