0

我有一个下载了推文的 postgres 数据库,我使用带有时区列的时间戳来存储 current_timestamp。所以我想做的就是像这个伟大的人一样聚集我的推文

https://gis.stackexchange.com/questions/11567/spatial-clustering-with-postgis

但是我不想进行地理聚类,而是进行时间聚类。我的意思是我想通过 current_timestamp 列将我的推文分组。例如,我有 10 条推文:

时间 | 正文 | 推文ID
2013-07-29 11:17:08.153+03 | 一些文字 | 12345600bsa9
2013-07-29 11:19:08.153+03 | 还有一些文字| ang698f4s8s4
..
2013-07-29 16:41:00.968+03 | 你好 | 6546448965445
2013-07-29 16:43:00.968+03 | 世界| w9087ol0930j3

因此,通过这 4 条推文,我想创建两个集群(通过检查小时距离来集群)一个集群用于 11:.. 小时,一个用于 16:.. 小时。当然我想把它扩展到日集群、月集群等。有帮助的人吗?提前致谢

4

1 回答 1

0

Sort the data.

Define a temporal threshold, e.g. 1 hour. If the gap to the previous time is larger than this, split into two clusters.

Time is 1-dimensional; this is not really cluster analysis. One dimensional data can be sorted, and processed as a series; which is MUCH easier.

于 2013-07-31T10:34:57.743 回答