我是R用户,我有一个关于我遇到的问题的问题:
- 非常大的数据集(几乎 800k 行)
- 该数据集列出了对美国 90 年代政治家的所有捐款
经过一些数据清理后,我需要将列表减小到更易于管理的大小。由于我对多次捐赠的贡献者感兴趣,因此我决定尝试像这样限制数据集的大小。
数据集加载为“cont”
我的意图:
地图提及频率:
> table(cont$contributor_name) -> FreqCon > subset(FreqCon,Freq>4) -> FMI
插入一个额外的列作为 cont[,43],名称为“include”,表示 TRUE 或 FALSE 是否应该对其进行子集化
for(i in 1:dim(FMI)[1]){ + ifelse(cont[i,11] %in% FMI[,1],cont[i,43] <- TRUE, cont[i,43] <- FALSE) }
子集数据集基于
cont$include
我希望这是所有相关信息。如果需要,我很乐意提供更多信息!还:cont[,11] = cont$contributor_name
问题:目前,R工作非常努力,但似乎没有改变列中的任何内容。我对自己做错了什么感到困惑,因为我没有收到任何warnings()
错误。
也许我正在尝试重新发明轮子,所以任何完成我打算做的事情的方式都会非常感激!