nlp - WEKA 中 SVM 训练的名义属性中名义值的最大数量是多少？

Question

我有一个 NLP 问题，我计划在 WEKA 中使用 SVM 进行分类。我正在尝试对单词进行分类 - POS 标签集有 24 个标签，而基本短语块 (BPC) 标签集有 15 个标签。

但是我有“特征集”，我希望每个词都针对它的每个特征进行分类。

第一个特征集是 {POS}，因此这将是名义属性 POS 的 24 个名义值。第二个是 {POS+BPC}，因此 POS+BPC 名义属性的名义值是 24*15=375。

因此，例如，一个单词可能会像这样输出，每个名词属性都分类：

word, POS=tag1, POS+BPC=tag234

我只是想知道这是否可能？对于标称属性，我可以拥有的（类）标称值的最大数量是多少？因为我可能会使用更多的标签集和更多的组合。我需要使用 LibSVM 包吗？使用 SVM 解决这个多类问题是否有意义？

我的训练数据集约为。288K 字，我的测试数据集约为。35k 字。

score 0 · Accepted Answer

我认识一个拥有 300 万个特征并使用 weka 构建分类器的人。但他不得不将提供给 weka 的内存从 1 GB 增加到 3 GB。与他的设置相比，您有 2 个功能，但有 3 位数值范围。我相信除了内存问题之外根本不应该有任何问题。Weka 是一个大型采矿工作台。您为什么不运行一些样本作为健全性测试并提醒我们？

nlp - WEKA 中 SVM 训练的名义属性中名义值的最大数量是多少？

1 回答 1

Related

Reference