这是我关于 SO 的第一篇文章,所以如果在其他地方问过这个问题,我深表歉意,但我似乎不知道如何表达我的问题,所以很难看。
我遇到的问题是我正在使用一个包含变量的数据框,该变量是一个称为 PrimaryType 的因子。这个变量有 15 个级别,我想从中创建新的二元变量,以便我可以对各个级别进行统计分析。这是我正在使用的代码:
df <- read.csv('Data/ChiCrime11_13.txt', header=T, sep='\t')
for (i in 1:nrow(df)){
for (crimes in levels(df$PrimaryType)){
if (df$PrimaryType == crimes) {
df[crimes] <- 1
}
else{
df[crimes] <- 0
}
}
}
我遇到的问题是我的数据框有超过 900,000 次观察,所以很明显这个过程需要很长时间才能运行(我相信 900,000^15 次迭代)。这让我想到了我的问题:有没有办法让这更有效?
任何想法/建议将不胜感激。谢谢!