我有一个数据集,其中我的所有数据都是分类的,我想使用一种热编码进行进一步分析。
我想解决的主要问题:
- 一些单元格在一个单元格中包含许多文本(下面将举例说明)。
- 一些数值需要更改为因子以进行进一步处理。
具有 3 个标题的数据年龄、信息和目标
mydf <- structure(list(Age = c(99L, 10L, 40L, 15L), Info = c("c(\"good\", \"bad\", \"sad\"",
"c(\"nice\", \"happy\", \"joy\"", "NULL", "c(\"okay\", \"nice\", \"fun\", \"wild\", \"go\""
), Target = c("Boy", "Girl", "Boy", "Boy")), .Names = c("Age",
"Info", "Target"), row.names = c(NA, 4L), class = "data.frame")
我想为上面显示的所有这些变量创建一个热编码,所以它看起来像下面这样:
Age_99 Age_10 Age_40 Age_15 good bad sad nice happy joy null okay nice fun wild go Boy Girl
1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1