0

我正在实时聚类数据流,更准确地说是 Twitter 流。当数据点(推文)从流中到达时,一个点被分配给与其最相似的集群。在聚类期间,我会随着时间的推移跟踪所有聚类的大小。每当一个集群的大小超过所有大小的平均值时,我就会将该集群声明为重要集群或趋势集群。但是,如果它的大小在一段时间内保持不变,我无法找到一种方法来将该集群声明为非趋势或无关紧要的。因为如果它保持静态,则意味着人们不会发布有关该主题的推文,但是它的大小仍将高于平均值,因此即使不是,它仍将是一个趋势集群。

我想解决这个问题的一种方法是声明一个周期参数,比如 10 分钟,看看它的大小是否保持不变,然后我将其声明为非增加,因此我将其从趋势列表中删除。

我想知道是否有比周期参数更好的方法来处理这个问题,甚至如何确定周期参数?

4

1 回答 1

0

这完全取决于您的应用程序,忘记旧集群的适当规则是什么。

没有我们可以分享的一般规则。有些人会希望永远保留集群,其他人会考虑元素老化,并在集群缩小到阈值大小以下时解散。一旦它不再生长,你显然想忘记它。

这取决于你,你想建模什么。

于 2013-07-07T10:14:28.443 回答