text - 带有 Weka 问题的文本分类

Question

我是文本分类的新手，我想用 WEKA 来实现它。我是否必须像下面的 ARFF 文件那样构建一个有监督的训练集？我必须手动做对吗？在这之后，我该怎么办？使用朴素贝叶斯分类器来预测测试集的类别？

@relation test
@attribute text String
@attribute politics {yes,no}
@attribute religion {yes,no}
@attribute another_category {yes,no}

@data
"this is a text about politics",yes,no,no
"this text is about religion",no,yes,no
"this text mixes everything",yes,yes,yes

score 0 · Accepted Answer

加载 ARFF 后，您可以应用StringToWordVector来构建您的单词列表。从那里，您可以使用分类器（例如朴素贝叶斯）来预测您的类（您可能需要过滤其他属性以确保它们也不会用作分类器的输入）。

希望这可以帮助！

text - 带有 Weka 问题的文本分类

1 回答 1

Related

Reference