Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个名为“价格”的变量,它的分布看起来很倾斜。我计划使用核密度估计来检测异常值。这个有什么好主意吗?
谢谢!
如果我了解您正在寻找低振幅的局部最大值?您可以检查斜率过渡的内核密度。正态分布应该是 POS-NEG。如果您的平滑函数足够平滑,您的主要数据应该如下所示。异常值会在斜率上添加额外的 POS-NEG 转换。
斜率函数的计算类似于内核本身,但使用您选择的窗口函数的导数。
相应地调整平滑参数并删除导致局部最大值过大的样本。