1)我想应用 IG、MI 等特征加权方法来加权我的特征,但 StringToWordVector 只允许我们使用 TF-IDf 来加权 weka 中的特征。
有没有一种方法可以应用除 TF-IDF 之外的加权方法来加权我的条款?
2)如何访问java代码中每个特征的TF-IDF权重?我调试了代码,发现所有术语都分配了权重 1.0 ?
filterInstances.attribute(i).weight() // filter instances is set of instances after applying tf-idf
3) IG 小于 0 的术语是否对分类过程没有帮助,我们应该始终将它们从词汇表中删除?
提前谢谢...