0

I am designing a support vector machine considering n dimensions. Along every dimension, the values could range from [0-1]. Now, if I am unable to determine the value across a particular dimension from the original data set, for a particular data point due to various reasons, what should the value along that dimension be for the SVM? Can I just put it as [-1] indicating a missing value?

Thanks Abhishek S

4

1 回答 1

0

如果维度无法对您的机器的空间分区做出贡献,那么您最好将缺失值完全排除在外。这是因为 SVM 唯一能做的就是在分类能力上对该维度赋予零权重,因为该维度中的所有点都在同一个位置。

因此,每次通过该维度只是浪费计算资源。如果恢复此值很重要,您可以使用某种类型的回归模型来尝试获取估计值,但如果该估计值是从您的其他数据生成的,那么它实际上不会对您的SVM,因为该估计维度中的数据只不过是您用来生成它的数据的摘要(我假设它已经在您的 SVM 模型中)。

于 2012-06-11T19:41:26.313 回答