我在 2 年前使用了 NLTK 分类器。现在我想学习使用橙色 SVM 进行文本分类。橙色教程中 SVM 的示例是 iris.tab:
sepal length sepal width petal length petal width iris
c c c c d
class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
如果我想对文本进行分类,如何准备数据。是不是像下面这样?
token frequency tokenlength
the 23 3
for 21 3
at 10 2
请举例说明准备数据的不同方法。token在SVM中可以看成标签吗,如果不行,怎么办?
首先十分感谢。