0

我在 2 年前使用了 NLTK 分类器。现在我想学习使用橙色 SVM 进行文本分类。橙色教程中 SVM 的示例是 iris.tab:

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类,如何准备数据。是不是像下面这样?

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请举例说明准备数据的不同方法。token在SVM中可以看成标签吗,如果不行,怎么办?

首先十分感谢。

4

1 回答 1

1

简短的回答:没有。

长答案:标签是指您要处理的文档类别。例如,如果您尝试将文档分为两类,例如垃圾邮件和垃圾邮件,那么标签应该是垃圾邮件和垃圾邮件。对于数据表示,您可以使用诸如 Bag of Words (http://en.wikipedia.org/wiki/Bag_of_words_model) 之类的技术。

有关更多信息,我建议以下内容:

于 2011-11-21T13:14:31.190 回答