0

因此,我们在一组 15k 条推文上运行多项朴素贝叶斯分类算法。我们首先根据 Weka 的 StringToWordVector 函数将每条推文分解为单词特征向量。然后我们将结果保存到一个新的 arff 文件中,作为我们的训练集。我们用另一组 5k 条推文重复这个过程,并使用从我们的训练集派生的相同模型重新评估测试集。

我们想要做的是输出weka在测试集中分类的每个句子及其分类......我们可以看到算法的性能和准确度的一般信息(Precision,recall,f-score)但是我们根据我们的分类器,看不到由 weka 分类的单个句子……有没有办法做到这一点?

另一个问题是,最终我们的教授会给我们多 2 万条推文,并期望我们对这个新文档进行分类。但是,我们不确定如何执行此操作:

All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we 
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?

谢谢你的帮助!

4

1 回答 1

1

完成这些任务的最简单方法是使用FilteredClassifier. 这种分类器集成了 aFilter和 a ,Classifier因此您可以将StringToWordVector过滤器与您喜欢的分类器( ) 通过使用过滤器派生的词汇。J48NaiveBayesStringToWordVector

您可以在“用于 WEKA 中的文本挖掘的命令行函数”中的命令行中以及通过“使用 WEKA 的 Java 中的简单文本分类器”中的程序查看如何执行此操作。

于 2014-04-22T07:19:26.657 回答