text - 查询默认存在于高维空间中的文本分类数据

Question

我读过很多支持向量机的书籍和技术论文，这是许多作者为大多数文本分类任务选择线性核而做出的假设。

他们说，由于文本分类问题中的数据已经存在于高维空间中，因此在尝试使用 SVM 对数据进行分类时，选择一个线性内核来分离数据就足够了。

我对这个假设的理解如下：

在任何文本分类任务中，为分类任务选择的特征数量（在许多情况下是我们在文档中寻找的某些重要词）大多会非常高，这就是驻留在一个高维空间。

我对假设的理解准确吗？如果不是，我希望有人尝试阐明这个假设。

任何帮助将不胜感激。

score 0 · Accepted Answer

据我了解，您是正确的。

我可以推荐阅读有关 SVM 和类似内容的讲座：http ://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在该主题中所知道的最好的资源。简明扼要。

1 回答 1