如果我在具有多个变量的数据集中有一列,我将如何创建这些虚拟变量。
示例:假设我有一个名为颜色的列,它有:红色、绿色、黄色、蓝色、粉红色和灰色作为汽车颜色的选项。
将这些变量转化为因子的最佳方法是什么。无需手动创建一堆虚拟变量?
编辑:所以我做了格雷格推荐的,这就是我所拥有的。不过,我想知道 NA 输出,但不确定它为什么存在。
> data$Trim<-factor(data$Trim)
> data$Model<-factor(data$Model)
> data$Type<-factor(data$Type)
> data=cbind(Price,Mileage,Buick,Cadillac,Chevrolet,Pontiac,SAAB,Saturn,Model,Trim,Type,Cylinder,Liter,Doors,Cruise,Sound,Leather)
> fit <- lm( Price ~ Mileage+Buick+Cadillac+Chevrolet+Pontiac+SAAB+Saturn+Model+Trim+Type+Cylinder+Liter+Doors+Cruise+Sound+Leather, x=TRUE )
> summary(fit)
然后我收到一条消息“系数:(由于奇异性而未定义 21)”,对于某些变量,输出为 NA。