我正在尝试使用 R 中引导库中的交叉验证 cv.glm 函数来确定应用 glm 逻辑回归时错误分类的数量。
该函数具有以下签名:
cv.glm(data, glmfit, cost, K)
前两个表示数据和模型,K 表示 k 折。我的问题是成本参数定义为:
成本:两个向量参数的函数,指定交叉验证的成本函数。成本的第一个参数应该对应于观察到的响应,第二个参数应该对应于广义线性模型的预测或拟合响应。cost 必须返回一个非负的标量值。默认值为均方误差函数。
我想对于分类来说,有一个返回错误分类率的函数是有意义的,例如:
nrow(subset(data, (predict >= 0.5 & data$response == "no") |
(predict < 0.5 & data$response == "yes")))
这当然甚至在语法上都不正确。
不幸的是,我有限的 R 知识让我浪费了很多时间,我想知道是否有人能指出我正确的方向。