我正在尝试将 scikit 用于 Naive Basyes 分类。我有几个问题(我也是 scikit 的新手)
1) Scikit 算法希望输入为 numpy 数组,标签为数组。在文本分类的情况下,我应该通过维护词汇中的单词散列和与之关联的唯一 id 来将我的每个单词映射到一个数字 (id) 吗?这是 scikit 的标准做法吗?
2)如果将相同的文本分配给多个班级,我应该如何进行。一种明显的方法是为每个相关标签复制每个训练示例。存在更好的表示吗?
3) 同样对于测试数据,我将如何获得与测试相关的多个类?
我使用http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html 作为我的基础。