我正在使用 Weka 的信息增益属性选择功能,并试图弄清楚 Weka 在处理连续数据时使用的特定公式。
我了解熵的常用公式是当数据中的值是离散的时。我知道在处理连续数据时,可以使用微分熵或离散化值。我尝试查看 Weka 对InfoGainAttributeEval的解释,并查看了许多其他参考资料,但找不到任何东西。
也许只有我一个人,但有人知道 Weka 是如何实现这个案例的吗?
谢谢!
我正在使用 Weka 的信息增益属性选择功能,并试图弄清楚 Weka 在处理连续数据时使用的特定公式。
我了解熵的常用公式是当数据中的值是离散的时。我知道在处理连续数据时,可以使用微分熵或离散化值。我尝试查看 Weka 对InfoGainAttributeEval的解释,并查看了许多其他参考资料,但找不到任何东西。
也许只有我一个人,但有人知道 Weka 是如何实现这个案例的吗?
谢谢!
我问过作者 Mark Hall,他说:
它使用 Fayad 和 Irani 的有监督的基于 MDL 的离散化方法。请参阅 javadocs:
http ://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html
您还可以查看离散化方法的此链接:
http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html