在了解信息增益计算的同时 - 人群中患癌症的概率为 1%。癌症检测以 50% 的概率正确识别癌症患者,以 99.5% 的概率正确识别非癌症患者。现在我必须计算使用此癌症测试获得的信息增益?这是我在学习熵和信息增益时试图解决的练习题之一。编辑-我上面计算的尝试是-
如果我们将总人口视为 100 -
Cancer patient =1
Non-cancer patient = 99
Entropy H = -1/100 log(1/100)- 99/100 log(99/100)
现在对癌症患者的测试给了我 - 50% 的癌症患者和 50% 的非癌症患者。因此分类为癌症患者的熵-
H1 = -1/2(log1/2)-1/2log(1/2)
非癌症患者它给了 99.5% 的非癌症患者和 0.5% 的癌症。因此信息增益应该是。对非癌症患者的分类熵是 -
H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99)
我想知道测试后获取熵的正确方法。如果这是正确的,可以计算信息增益 -
Information gain = H - (H1+H2)