我有一个数据集,它由一对字符串和它所属的类组成。字符串是一个句子。班级可以是“男性”或“女性”。一个例子 -
'你好!我叫杰克,男
我将其用作训练集,因此,给定一组不同的字符串,它可以分类该语句是来自男性还是女性。我正在使用 WEKA 的stringtowordvector将字符串转换为包含该字符串中单词数的向量。使用结果 arff 我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。我该怎么做?我应该使用哪个分类器?在这种情况下,还有哪些其他预处理技术会有所帮助?
我有一个数据集,它由一对字符串和它所属的类组成。字符串是一个句子。班级可以是“男性”或“女性”。一个例子 -
'你好!我叫杰克,男
我将其用作训练集,因此,给定一组不同的字符串,它可以分类该语句是来自男性还是女性。我正在使用 WEKA 的stringtowordvector将字符串转换为包含该字符串中单词数的向量。使用结果 arff 我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。我该怎么做?我应该使用哪个分类器?在这种情况下,还有哪些其他预处理技术会有所帮助?
Weka 主页上的 Simple Message Classifier 示例(代码和wiki)示例,或者Text Categorization Wiki可能是一个很好的起点。