诚然,这是一个非常简单的问题,我只是找不到答案。
在 R 中,我有一个包含 2 列的文件:1 列是分类数据名称,第二列是计数列(每个类别的计数)。对于一个小数据集,我会使用“reshape”和“untable”函数来制作 1 列并以这种方式进行分析。问题是,如何用大数据集处理这个问题?
在这种情况下,我的数据是巨大的,那是行不通的。
我的问题是,我如何告诉 R 使用以下内容作为分布数据:
Cat Count
A 5
B 7
C 1
也就是说,我给它一个直方图作为输入,并让 R 在计算有关数据的其他信息时计算出这意味着有 5 个 A、7 个 B 和 1 个 C。
所需的输入而不是输出将使 R 理解数据将与以下相同,
A A A A A B B B B B B B C
在合理大小的数据中,我可以自己做,但是当数据非常大时怎么办?
编辑
所有计数的总和为 262,916,849。
就它的用途而言:
这是新数据,试图了解这些新数据与其他数据之间的相关性。需要处理线性回归和混合模型。