scikit-learn 的新手,我正在处理一些如下数据。
data[0] = {"string": "some arbitrary text", "label1": "orange", "value1" : False }
data[0] = {"string": "some other arbitrary text", "label1": "red", "value1" : True }
对于单行文本CountVectorizer
,DictVectorizer
在TfidfTransformer
. 这些的输出可以连接起来,我希望有以下警告:我不希望任意文本与特定的、有限的和明确定义的参数同等重要。
最后,还有一些其他问题,可能相关
- 这个数据结构可能表明哪个 SVM 内核是最好的?
- 或者在这种情况下,随机森林/决策树、DBN 或贝叶斯分类器可能会做得更好吗?还是集成方法?(输出是多类的)
- 我看到feature union有一个即将推出的功能,但这是对相同的数据运行不同的方法并将它们组合起来。
- 我应该使用功能选择吗?
也可以看看: