Jiawei Han 的数据挖掘书第 2 版(属性选择测量 - pp 297 到 300)解释了如何计算每个属性(年龄、收入、信用等级)和类别(buys_computer 是或否)实现的信息增益。在这个例子中,每个属性值都是离散的,例如年龄可以是青年/中年/高级,收入可以是高/低/中,信用评级一般/优秀等。
我想知道如何将相同的信息增益应用于采用非离散数据的属性。例如,收入属性采用任何货币金额,如 100.68、120.90 等。如果有 1000 名学生,则可能有 1000 个不同的金额值。
我们如何在非离散数据上应用相同的信息增益?任何教程/示例示例/视频网址都会有很大帮助。