0

I have a dataset that have multiple variables with each of them heavily centered around zero to form a high peak. The kurtosis of each variable is more than 100.

What I want to estimate is the probability density of any given value if it belongs to the dataset. The most accessible distribution function I found currently is the multivariant Gaussian distribution. However, since my dataset is not is a normal shape and I am worried that it is inaccurate estimate the probability density using this function.

Does anyone have any good suggestions on which function to use to for this purpose?

4

1 回答 1

0

您正在重复对峰度的常见错误解释,即“峰度”,这会导致混淆使用什么分布。

峰度根本不衡量“峰值”。您可以有一个具有完全平坦峰、V 形峰、三峰峰、波浪形峰或任何形状峰的分布,具有无限峰度。并且您可以拥有一个具有无限峰值的分布,而不是具有负(过度)峰度。

相反,峰度是对分布尾部(异常值潜力)的度量,而不是峰值。人们认为高峰度时存在“高峰”的唯一原因是异常值拉伸了直方图的水平尺度,使数据显得集中在一个狭窄的垂直条带上。但是,如果您放大该条带中的大量数据,则峰值可以具有任何形状。此外,如果您将标准化数据直方图的高度与相应标准法线的高度进行比较,无论您的数据显示什么,两者都可能更高。“身高”神话在 1945 年左右被卡普兰斯基揭穿。

对于您的数据,您不需要“峰值”分布。相反,您需要一个允许您观察到的极端值的分布。示例包括混合分布、对数正态分布、具有小自由度的 t 分布或此类的多元版本,如果您需要的话。

参考:

Westfall,PH(2014)。峰度作为峰度,1905 – 2014 年。美国统计学家 RIP,68,191–195。

(上述论文的简化讨论在 Wikipedia 峰度条目的谈话部分给出。)

于 2018-10-05T22:33:45.177 回答