我有一个 NLP 问题,我计划在 WEKA 中使用 SVM 进行分类。我正在尝试对单词进行分类 - POS 标签集有 24 个标签,而基本短语块 (BPC) 标签集有 15 个标签。
但是我有“特征集”,我希望每个词都针对它的每个特征进行分类。
第一个特征集是 {POS},因此这将是名义属性 POS 的 24 个名义值。第二个是 {POS+BPC},因此 POS+BPC 名义属性的名义值是 24*15=375。
因此,例如,一个单词可能会像这样输出,每个名词属性都分类:
word, POS=tag1, POS+BPC=tag234
我只是想知道这是否可能?对于标称属性,我可以拥有的(类)标称值的最大数量是多少?因为我可能会使用更多的标签集和更多的组合。我需要使用 LibSVM 包吗?使用 SVM 解决这个多类问题是否有意义?
我的训练数据集约为。288K 字,我的测试数据集约为。35k 字。