2

我正在尝试将大型数据集转换为在flowstrates包中进行分析所需的格式。

我目前拥有的是一个包含起点和终点的大文件(600k 行程)。

格式有点像这样:

tripID   Month start_pt   end_pt
1        June   1           3
2        June   1           3
3        July   1           5
4        July   1           7
5        July   1           7

我需要能够生成的是一个文件,该文件具有按单位时间(比如说几个月)的行程计数,格式如下:

start_pt   end_pt  June July August ... December
1          3       2    0    5          9
1          5       0    1    4          4
1          7       0    2    0          0

按月预先分割数据然后为每个起点-终点对生成计数很容易,但是将它们全部重新组合在一起会导致各种问题,因为每个预先分割的数据块的大小都非常不同。所以看来我需要一次对整个数据集执行此操作。

是否有任何用于进行此类处理的软件包?在 SQL 或 SQLite 之类的东西中这样做会更容易吗?

提前感谢您的帮助。

4

1 回答 1

3

您可以使用该reshape2软件包相当容易地做到这一点。

如果您的数据dat

library("reshape2")
dcast(dat, start_pt+end_pt~Month, value.var="tripID", fun.aggregate=length)

这为每个start_pt//组合end_pt提供了一个条目Month,其值是有多少案例具有该组合(该tripID集合的长度)。

于 2012-10-15T22:08:32.483 回答