machine-learning - 如何在 SVM 中编码不同大小的特征向量

Question

我致力于将一些评论（段落）分类为由多个句子组成。我通过 libSVM 在 Weka 中使用词袋特征对它们进行分类。但是，我有另一个想法，我不知道如何实现：

我认为在评论中为每个句子创建基于句法和浅语义的特征值得一试。但是，我找不到任何方法来按顺序对这些特征进行编码，因为段落的句子大小会有所不同。我想让这些特征保持有序的原因是句子特征的顺序可能会为分类提供更好的线索。例如，如果我有两个实例 P1（3 个句子）和 P2（2 个句子），我将有一个这样的空间（假设每个句子都有一个二进制特征作为 a 或 b）：

P1 -> abb /classX P2 -> ba /classY

所以，我的问题是，我是否可以在特征空间中实现不同特征大小的分类？如果是，是否有任何类型的分类器可以在 Weka、scikit-learn 或 Mallet 中使用？我将不胜感激。

谢谢

score 6 · Accepted Answer

无论实现如何，具有标准内核（线性、多边形、RBF）的 SVM 都需要固定长度的特征向量。您可以通过编码为布尔值来编码这些特征向量中的任何信息；例如，收集您的语料库中出现的所有句法/语义特征，然后引入表示“本文档中出现的特征”的布尔值。如果捕获这些特征出现在多个句子中这一事实很重要，请计算它们并使用将频率放入特征向量中（但请确保按文档长度标准化您的频率，因为 SVM 不是尺度不变的）。

score 0 · Accepted Answer

如果您正在对文本数据进行分类，我建议您查看“Rational Kernels”，它是在加权有限换能器上制作的，用于对自然语言文本进行分类。Rational Kernels 可以应用于不同长度的向量，并且已经作为一个开源项目 (OpenFST) 实现。

score -3 · Accepted Answer

这是库的问题，由于SVM本身不需要固定长度的特征向量，它只需要一个核函数，如果你能提供一个变长向量的核函数，SVM应该是可以的

machine-learning - 如何在 SVM 中编码不同大小的特征向量

3 回答 3

Related

Reference