3

我最近在玩二进制情感分析中使用的著名电影评论数据集。它由 1,000 条正面评论和 1,000 条负面评论组成。在探索具有 unigram 特征的各种特征编码时,我注意到所有以前的研究出版物都通过它们的欧几里德范数对向量进行归一化,以便将它们缩放到单位长度。

然而,在我使用 Liblinear 的实验中,我发现这种长度归一化会显着降低分类精度。我研究了向量,我认为这就是原因:向量空间的维度是,比如说,10,000。因此,与单个投影相比,向量的欧几里得范数非常高。因此,在归一化之后,所有的向量在每个轴上都得到非常小的数字(即在一个轴上的投影)。

这让我感到惊讶,因为该领域的所有出版物都声称它们执行余弦归一化,而我发现不归一化会产生更好的分类。

因此我的问题是:如果我们不对 SVM 特征向量执行余弦归一化,是否有任何特定的缺点?(基本上,我正在为这种标准化需求寻求数学解释)。

4

1 回答 1

1

在阅读了 LibSVM 的手册之后,我意识到为什么与进行归一化相比,归一化产生的准确度要低得多。他们建议将数据缩放到 [0,1] 或 [-1,1] 区间。这是我没有做过的事情。扩大规模将解决太多数据点非常接近于零的问题,同时保留长度标准化的优势。

于 2012-07-27T10:18:43.190 回答