我正在处理一个大约有 700 000 行的 data.frame。它包含状态更新的 id 和来自 twitter 的相应用户名。我只想知道那里有多少不同的用户以及他们发了多少次推文。所以我认为这是一个使用表格的非常简单的任务。但是知道我注意到我得到了不同的结果。
最近我将列转换为这样的字符
>freqs <- as.data.frame(table(as.character(w_dup$from_user))
>nrow(freqs)
[1] 239678
2个月前我就是这样
>freqs <- as.data.frame(table(w_dup$from_user)
>nrow(freqs)
[1] 253594
我注意到这样数据框包含频率为 0 的用户名。这怎么可能?如果用户名在数据集中,它必须至少出现一次。
?table 对我没有帮助。我也无法在较小的数据集上重现此问题。
我做错了什么。还是我误解了表格的使用?