我正在使用 j48 树算法挖掘数据集。
我一直试图了解useLaplace
参数的作用。我唯一需要做的是:
是否根据 LapLace 对叶子处的计数进行平滑处理
这只是 WEKA 提供的文档。我对此有一些疑问:
- 什么是叶子计数?
- 什么是平滑?
- 什么是 LapLace?它是用于平滑的算法吗?
我在网上找到的所有内容都没有真正详细说明这个参数实际上在做什么,而只是解释说它“打开了拉普拉斯平滑”。
Provost 和 Domingos 发现叶概率估计的频率平滑(例如拉普拉斯校正)显着提高了决策树的性能。根据我的阅读,叶子的计数(在我之前的句子中也称为叶子概率)用于确定概率估计,可以通过以下方式定义:
P( 成为 A 类 | 对于属性 x) = TruePositive/(TruePositive + FalsePositive)
平滑在于减少树中结果之间的噪声和误差,以便产生更准确的概率估计。
拉普拉斯是频率平滑校正公式:
PLaplace(成为A类|对于属性x)=(TP + 1)/(TP + FP + C)
其中 C 是数据集中的类数。