1

我在数据框中有很多列是标志“0”和“1”。当我导入数据框时,它们属于“整数”类。

0 表示不存在,1 表示存在于所有列中。

我需要将它们转换为因子吗?[因子将成为 1 和 2 级,而目前它们几乎是相似的 0 和 1,尽管是整数]

我计划稍后使用 xgboost 来构建预测模型。Xgboost 仅适用于数字列,因此如果我将列转换为因子,那么我需要对它们进行一次热编码以将它们转换为数字。

(附带问题:如果我们进行一次热编码以消除共线性,我们是否总是需要删除一列?)

4

2 回答 2

1

简短的回答:取决于。是的,只是为了更好的变量解释。不,对于 0/1 变量整数和因子都是相同的。

如果您问我的个人意见,那么我更倾向于是;因为您更有可能拥有一些分类变量,这些变量要么具有字符串值,要么具有超过 2 个级别或 2 个除 0 和 1 之外的整数级别。在所有上述情况下,0/1 变量整数和因子都不相同。只有 0/1 二进制级别的特定情况;整数变量和因子相同。因此,您可能希望在编码中保持一致性,甚至希望在 0/1 情况下也采用这种方式。

看到自己:

a <- c(1,2,1,2,1,2,5)
c<-as.character(a)
b<-as.factor(c)
d<-as.integer(b)

在这里我只是在玩a矢量,它最终给了我:

> d
[1] 1 2 1 2 1 2 3

因此,如果您不想调试为什么将来值会发生变化,那么请as.factor()从头开始使用。

侧面回答:是的。搜索model.matrix()contrasts.arg在 R 中完成此操作。

于 2017-02-19T13:26:07.140 回答
0

错误状态xgb.DMatrix采用数值,其中数据是整数。

将数据转换为数字使用

train[] <- lapply(train, as.numeric)

然后使用

xgb.DMatrix(data=data.matrix(train))
于 2017-06-28T22:08:26.873 回答