我有以下代码:
from pyspark.sql import DataFrame
import plotly.express as px
import matplotlib.pyplot as plt
dfPy = sqlContext.table("df")
pd = dfPy.toPandas()
pd[['col4']].plot(kind='hist', bins=[0,10,20,30,40,50,60,70,80,90,100], rwidth=0.8)
plt.show()
我可以在 Apache Zeppelin notebook 中看到以下运行结果:
可以看出我有两个问题:
如何绘制钟形曲线?似乎分布不是正态分布或高斯分布。所以我想我应该做一些数据转换。正确的?
我现在如何在生成的直方图上绘制钟形曲线?