python - 如何为橙色 SVM 训练准备文本数据？

Question

我在 2 年前使用了 NLTK 分类器。现在我想学习使用橙色 SVM 进行文本分类。橙色教程中 SVM 的示例是 iris.tab：

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类，如何准备数据。是不是像下面这样？

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请举例说明准备数据的不同方法。token在SVM中可以看成标签吗，如果不行，怎么办？

首先十分感谢。

score 1 · Accepted Answer

简短的回答：没有。

长答案：标签是指您要处理的文档类别。例如，如果您尝试将文档分为两类，例如垃圾邮件和垃圾邮件，那么标签应该是垃圾邮件和垃圾邮件。对于数据表示，您可以使用诸如 Bag of Words (http://en.wikipedia.org/wiki/Bag_of_words_model) 之类的技术。

有关更多信息，我建议以下内容：

SVM 文本分类，http://www.igvita.com/2006/06/02/svm-text-classification/
学习使用支持向量机对文本进行分类，http://www.cs.cornell.edu/People/tj/svmtcatbook/

python - 如何为橙色 SVM 训练准备文本数据？

1 回答 1

Related

Reference