我一直在阅读有关文本分类的内容,发现了几个可用于分类的 Java 工具,但我仍然想知道:文本分类是否与句子分类相同!
有没有专注于句子分类的工具?
“文本分类”和“句子分类”之间没有形式上的区别。毕竟,句子是一种文本。但一般来说,当人们谈论文本分类时,恕我直言,他们指的是更大的文本单元,例如文章、评论或演讲。将政治家的演讲分类为民主派或共和党人比将推文分类要容易得多。当每个实例有很多文本时,您不需要为每个训练实例压缩它可以提供给您的所有信息,并从词袋朴素贝叶斯模型中获得相当好的性能。
基本上,如果您在句子语料库中扔掉现成的 weka 分类器,您可能无法获得所需的性能数字。您可能必须使用 POS 标签、解析树、词序、ngram 等来扩充句子中的数据。还要获取任何相关的元数据,例如创建时间、创建位置、句子作者的属性等。显然,所有这些都取决于您到底想对什么进行分类……适合您的功能需要对手头的问题具有直观的意义。