我致力于将一些评论(段落)分类为由多个句子组成。我通过 libSVM 在 Weka 中使用词袋特征对它们进行分类。但是,我有另一个想法,我不知道如何实现:
我认为在评论中为每个句子创建基于句法和浅语义的特征值得一试。但是,我找不到任何方法来按顺序对这些特征进行编码,因为段落的句子大小会有所不同。我想让这些特征保持有序的原因是句子特征的顺序可能会为分类提供更好的线索。例如,如果我有两个实例 P1(3 个句子)和 P2(2 个句子),我将有一个这样的空间(假设每个句子都有一个二进制特征作为 a 或 b):
P1 -> abb /classX P2 -> ba /classY
所以,我的问题是,我是否可以在特征空间中实现不同特征大小的分类?如果是,是否有任何类型的分类器可以在 Weka、scikit-learn 或 Mallet 中使用?我将不胜感激。
谢谢