0

它是关于非参数密度估计。

因此,我们有 2 个不同的数据 220 个“好数据”值和 30 个“坏数据”值,我们应该使用 k-最近邻密度估计来估计 p(x |c="good data")

在 k=5 的情况下,我们有 p(x |c=good) =(5/220)*(1/V)。

如果我理解正确,通过k-最近邻我们应该确定V然后得到p(x | c =好)如果我们必须找出5个点的V,那么我们可以解决p(x | c =好)

我有一个问题,如何绘制和计算这个概率。书中有图片 http://content.foto.mail.ru/mail/zurix/_mypagephoto/h-67.jpg K最近邻密度估计图形上的蓝色曲线是什么意思(你可以看到附件)​​?这条曲线可以显示不同 V 的边界吗?如果是,那么类之间的确切边界在哪里,每个类由 5 个点组成???

先感谢您!!

4

1 回答 1

0

如果没有任何附加信息(例如图标题或书名),很难猜测这两条曲线的含义。

我最好的猜测是绿色曲线是真实的(一维)密度,从中提取数据点样本。蓝色曲线似乎是三个不同 k 值的结果密度估计函数。

这应该说明正确选择 k 的重要性,对于 k = 1,这会过度拟合数据(所得密度估计函数的高方差),对于 k = 30,这会“过度平滑”数据(所得密度估计函数的高偏差) 因为它不会重现 0.3 左右的凹凸。

事实上,看看 k=1 的例子,在我看来这不是使用纯 1 / V 而是使用一些加权函数。对于每点的纯 1/V 估计,我希望有一个分段常数函数(只有几条水平线)。

于 2013-06-03T07:17:46.430 回答