我正在尝试将大型数据集转换为在flowstrates包中进行分析所需的格式。
我目前拥有的是一个包含起点和终点的大文件(600k 行程)。
格式有点像这样:
tripID Month start_pt end_pt
1 June 1 3
2 June 1 3
3 July 1 5
4 July 1 7
5 July 1 7
我需要能够生成的是一个文件,该文件具有按单位时间(比如说几个月)的行程计数,格式如下:
start_pt end_pt June July August ... December
1 3 2 0 5 9
1 5 0 1 4 4
1 7 0 2 0 0
按月预先分割数据然后为每个起点-终点对生成计数很容易,但是将它们全部重新组合在一起会导致各种问题,因为每个预先分割的数据块的大小都非常不同。所以看来我需要一次对整个数据集执行此操作。
是否有任何用于进行此类处理的软件包?在 SQL 或 SQLite 之类的东西中这样做会更容易吗?
提前感谢您的帮助。