我有以下数据:
PassengerId Survived Pclass Sex Age SibSp Parch Fare Embarked
1 1 0 3 male 22 1 0 7.2500 S
2 2 1 1 female 38 1 0 71.2833 C
3 3 1 3 female 26 0 0 7.9250 S
4 4 1 1 female 35 1 0 53.1000 S
5 5 0 3 male 35 0 0 8.0500 S
6 6 0 3 male NA 0 0 8.4583 Q
现在,当我使用dummy
or时dummy.data.frame
,我可以成功地将因子(here Sex
and Embarked
)转换为这样的假人:
PassengerId Survived Pclass Sexfemale Sexmale Age SibSp Parch Fare Embarked EmbarkedC EmbarkedQ EmbarkedS
1 1 0 3 0 1 22 1 0 7.2500 0 0 0 1
2 2 1 1 1 0 38 1 0 71.2833 0 1 0 0
3 3 1 3 1 0 26 0 0 7.9250 0 0 0 1
4 4 1 1 1 0 35 1 0 53.1000 0 0 0 1
5 5 0 3 0 1 35 0 0 8.0500 0 0 0 1
6 6 0 3 0 1 NA 0 0 8.4583 0 0 1 0
现在,如果我如何将它应用到Age
它创建 100 多个假人的列上,一个用于每个唯一的年龄条目,一个用于NA
. 我希望输出像
Age Age.NA
22 0
38 0
......
35 0
0 1
它会自动将缺失值视为不同的条目,并在出现因素时为其创建一个变量,但我希望在数值变量的情况下实现相同的目标,而不会妨碍列中已经存在的值。请帮忙。