我有一些整数的高维(30000 维)向量。我有 2 节课:[是,否]。我有 6000 个 YES 类样本和 50000 个 NO 类样本。我想训练一个分类器,以便将来自动将新样本分类到这些类之一。
我知道如何使用 Weka Java API,但我不确定以何种顺序使用哪些算法。任何人都可以就以下问题给我建议:
- 向量是不是维数太高,还是我有太多样本无法在 Weka 中有效地做到这一点?
- 我应该在开始之前降低维度吗?我可以使用什么算法来识别特征向量的重要元素?
- 哪种分类器最适合对此类数据进行分类?我认为决策树应该可以正常工作,但也许朴素贝叶斯训练起来更快,是吗?
- 由于 weka 中的每个元素都必须有一个名称,我如何为我的 30000 个功能中的每一个分配一个名称?
任何建议表示赞赏。谢谢。