2

我正在用 Python 创建一个朴素贝叶斯分类器,它能够根据一天的一些天气数据猜测它是哪一个月。

目前,均值和标准差用于对月份进行分类,但我认为添加偏度和峰度可能有助于提高准确性。

我目前正在使用 scipy.stats.norm.cdf 来计算机会,但我似乎无法在 Python 中找到任何考虑偏度和峰度的 cdf 函数。

我觉得我可能没有正确理解偏度和峰度。偏度和峰度对 cdf 函数有影响,因此我希望它们作为参数给出。

我对偏度、峰度和 cdf 函数的理解是否存在根本性错误?如果没有,那么我在哪里可以找到 Python 中考虑所有这些参数的 cdf 函数的实现?

4

1 回答 1

2

您使用的正态分布(scipy.stats.norm)通常用于对朴素贝叶斯中的一维条件分布进行建模,仅由两个参数明确定义 - 它meanstd。指定偏度/峰度没有意义,因为它们对于您的分布是恒定的(特别是峰度为 3)。

您正在考虑的可能是 Pearson 分布,用于拟合更多矩(均值、标准差、偏度和峰度)。

http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html

于 2015-11-27T21:58:33.890 回答