我读过很多支持向量机的书籍和技术论文,这是许多作者为大多数文本分类任务选择线性核而做出的假设。
他们说,由于文本分类问题中的数据已经存在于高维空间中,因此在尝试使用 SVM 对数据进行分类时,选择一个线性内核来分离数据就足够了。
我对这个假设的理解如下:
在任何文本分类任务中,为分类任务选择的特征数量(在许多情况下是我们在文档中寻找的某些重要词)大多会非常高,这就是驻留在一个高维空间。
我对假设的理解准确吗?如果不是,我希望有人尝试阐明这个假设。
任何帮助将不胜感激。
我读过很多支持向量机的书籍和技术论文,这是许多作者为大多数文本分类任务选择线性核而做出的假设。
他们说,由于文本分类问题中的数据已经存在于高维空间中,因此在尝试使用 SVM 对数据进行分类时,选择一个线性内核来分离数据就足够了。
我对这个假设的理解如下:
在任何文本分类任务中,为分类任务选择的特征数量(在许多情况下是我们在文档中寻找的某些重要词)大多会非常高,这就是驻留在一个高维空间。
我对假设的理解准确吗?如果不是,我希望有人尝试阐明这个假设。
任何帮助将不胜感激。
据我了解,您是正确的。
我可以推荐阅读有关 SVM 和类似内容的讲座:http ://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在该主题中所知道的最好的资源。简明扼要。