0

我有一个 NLP 问题,我计划在 WEKA 中使用 SVM 进行分类。我正在尝试对单词进行分类 - POS 标签集有 24 个标签,而基本短语块 (BPC) 标签集有 15 个标签。

但是我有“特征集”,我希望每个词都针对它的每个特征进行分类。

第一个特征集是 {POS},因此这将是名义属性 POS 的 24 个名义值。第二个是 {POS+BPC},因此 POS+BPC 名义属性的名义值是 24*15=375。

因此,例如,一个单词可能会像这样输出,每个名词属性都分类:

word, POS=tag1, POS+BPC=tag234

我只是想知道这是否可能?对于标称属性,我可以拥有的(类)标称值的最大数量是多少?因为我可能会使用更多的标签集和更多的组合。我需要使用 LibSVM 包吗?使用 SVM 解决这个多类问题是否有意义?

我的训练数据集约为。288K 字,我的测试数据集约为。35k 字。

4

1 回答 1

0

我认识一个拥有 300 万个特征并使用 weka 构建分类器的人。但他不得不将提供给 weka 的内存从 1 GB 增加到 3 GB。与他的设置相比,您有 2 个功能,但有 3 位数值范围。我相信除了内存问题之外根本不应该有任何问题。Weka 是一个大型采矿工作台。您为什么不运行一些样本作为健全性测试并提醒我们?

于 2012-05-12T01:45:40.973 回答