我想使用 python nltk 将 SVM 分类应用于文本挖掘目的并获得精度,召回精度不同的测量信息。为此,我预处理数据集并将我的数据集拆分为两个文本文件,即 -pos_file.txt(正标签)和 neg_file .txt(负标签)。现在我想应用带有随机抽样的 SVM 分类器,70% 用于训练数据,30% 用于测试。我看到了一些 scikit-learn 的文档,但不确定我应该如何应用它?
pos_file.txt 和 neg_file.txt 都可以看作是词袋。有用的链接-
- http://scikit-learn.org/stable/modules/feature_extraction.html
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
示例文件:pos_file.txt
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
示例文件:neg_file.txt
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
此外,将相同的方法应用于 unigram、bigram 和 trigram 会很有趣。期待您的建议或示例代码。