0

我申请了一个logistic regression并且我想测试我的整体模型的统计显着性。

现在,伪 Rsquared (McFaddon)Rsquared = 1 - L(c)/L(null)返回模型解释的方差 - 其中L(c)表示拟合模型的最大似然值,并L(null)表示空模型的对应值(无协变量,只有截距)。

似然检验统计LR = 2 * (L(c) - L(null))遵循分布,可以根据Chi-squared模型的自由度检验显着性。

无论如何,我使用Chi-squared来计算p-value非常重要的a ,但是在???pseudo Rsquared0.021

为什么 Rsquared 和整体 p 值差异如此之大?

对一些测试数据使用准确度计算metrics.accuracy_score(y_test, y_pred),我发现测试数据的准确度只有 55% 左右(训练数据的准确度在 60% 左右)。

有人可以帮我解释我的结果吗?

4

1 回答 1

1

也许存在显着的相关性,但影响仍然很小:由于您正在进行分类,您可以检查具有此变量的示例(在二进制情况下为 1)是否具有略高/略低的概率成为类成员1 比没有该变量的那些(在二进制情况下=0):

变量为 1 的示例有 50% 的机会属于 1 类,而该变量为 0 的示例有 48% 的机会属于 1 类。

如果存在许多具有该变量的示例,则效果可能仍然很显着(p 值),但它很难单独预测正确的类别(解释方差 - r 平方)。

这可能是可以帮助您以图形方式理解另一个问题的参考:https ://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-低 r 平方和低 p 值

于 2019-12-09T11:22:55.243 回答