我正在接收数据集,其中几个变量具有> 10个类别(一些序数/一些名义),我怀疑可以合并几个类别,既便于演示,又可以获得足够的事件进行分析。这可以/应该通过先验知识来完成,但是非常欢迎简化该过程的算法。这样的算法存在吗?这是在 R 中实现的吗?
编辑:
data("GBSG2", package = "ipred")
cut(GBSG2$tsize,seq(0,100,10))->GBSG2$size
现在我想知道是否可以合并 GBSG2$size 或 GBSG2$tgrade 中的任何类别以及哪些类别,而不会显着丢失预测 GBSG2$cens 状态的信息。我知道我可以通过合并两个变量中的几个类别、运行逻辑回归并比较手动合并变量前后的结果来手动完成,但是还有其他方法吗?