Weka StringToWord过滤器中保留属性的单词是什么意思。为了获得真正的结果,是否具有更高的价值更好?
问问题
2466 次
1 回答
4
一般来说,最好将限制设置得尽可能高,以便保留尽可能多的单词。频率较低的词可以稍微帮助您稍后诱导的分类器。
保留过多的单词可能看起来不利于效率 - 属性数量越多,学习模型所需的时间就越长。AttributeSelection
但是,您可以使用带有Ranker
函数和InfoGainAttributeEval
度量的过滤器过滤单词以保留最具预测性的单词。事实上,您可以使用 AttrivuteSelection 过滤器中的阈值,以便保留相对较少数量的非常具有预测性的词,而它们的相对频率独立。
此外,不要忘记将标志设置doNotOperatePerClassBasis
为 true 以保持所有单词与所有类相关。
于 2013-10-05T15:20:51.963 回答