0

我在 weka 工作以进行文本分类。我在词汇表中共有 113232 个属性,我想从中选择前 10、000 个属性。以下是我的信息增益过滤器的设置

AttributeSelection featureSelectionFilter = new AttributeSelection();

InfoGainAttributeEval informationGain = new InfoGainAttributeEval();

 Ranker ranker = new Ranker();
 ranker.setNumToSelect(10000);
 ranker.setThreshold(0);

我假设它可以根据信息增益按降序排列属性,我不确定我的假设是对还是错这里是三个属性的图像

在此处输入图像描述

最大值 std dev 意味着所有第一个属性都高于其他属性,这可能表明其重要性,但第二个属性的这些值小于 3rd ?这样对吗 ?当我们设置 numToSelect(10, 000) 时如何从词汇表中选择属性;?

4

0 回答 0