1

我读过很多支持向量机的书籍和技术论文,这是许多作者为大多数文本分类任务选择线性核而做出的假设。

他们说,由于文本分类问题中的数据已经存在于高维空间中,因此在尝试使用 SVM 对数据进行分类时,选择一个线性内核来分离数据就足够了。

我对这个假设的理解如下:

在任何文本分类任务中,为分类任务选择的特征数量(在许多情况下是我们在文档中寻找的某些重要词)大多会非常高,这就是驻留在一个高维空间。

我对假设的理解准确吗?如果不是,我希望有人尝试阐明这个假设。

任何帮助将不胜感激。

4

1 回答 1

0

据我了解,您是正确的。

  • 每个特征对应一个维度。
  • 更高的维度 => 更高的分离概率。
  • 非线性内核仅将数据(非线性)转换为更高的维度以增加分离的概率,因此在具有许多特征的情况下不需要。

我可以推荐阅读有关 SVM 和类似内容的讲座:http ://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在该主题中所知道的最好的资源。简明扼要。

于 2012-07-31T15:17:42.723 回答