2

Weka StringToWord过滤器中保留属性的单词是什么意思。为了获得真正的结果,是否具有更高的价值更好?

4

1 回答 1

4

一般来说,最好将限制设置得尽可能高,以便保留尽可能多的单词。频率较低的词可以稍微帮助您稍后诱导的分类器。

保留过多的单词可能看起来不利于效率 - 属性数量越多,学习模型所需的时间就越长。AttributeSelection但是,您可以使用带有Ranker函数和InfoGainAttributeEval度量的过滤器过滤单词以保留最具预测性的单词。事实上,您可以使用 AttrivuteSelection 过滤器中的阈值,以便保留相对较少数量的非常具有预测性的词,而它们的相对频率独立。

此外,不要忘记将标志设置doNotOperatePerClassBasis为 true 以保持所有单词与所有类相关。

于 2013-10-05T15:20:51.963 回答