我是 Weka 的初学者,我正在尝试将其用于文本分类。我已经看到如何使用 StringToWordVector 过滤器进行分类。我的问题是,有没有办法为我正在分类的文本添加更多功能?例如,如果我想在文本中添加 POS 标签和命名实体标签,我将如何在分类器中使用这些功能?
问问题
550 次
1 回答
2
这取决于数据集的格式和您执行的预处理步骤。例如,让我们假设您已经对文本进行了预先 POS 标记,如下所示:
The_det dog_n barks_v ._p
因此,您可以构建一个特定的标记器(请参阅weka.core.tokenizers
参考资料)来为每个单词生成两个标记,一个是“The”,另一个是“The_det”,这样您就可以保留标签信息。
如果您只想要标记的单词,那么您只需确保“_”不是weka.core.tokenizers.WordTokenizer
.
我的建议是同时拥有单词和标记的单词,因此更简单的方法是编写一个连接文本和标记文本的脚本。从一个包含“The dog barks”的文件和另一个包含“The_det dog_n barks_v ._p”的文件中,它将生成一个带有“The_det dog dog_n barks barks_v ._p”的文件。除非您打算使用 n-gram,否则您甚至可能会忘记顺序。
于 2014-03-24T14:50:32.870 回答