我正在实时聚类数据流,更准确地说是 Twitter 流。当数据点(推文)从流中到达时,一个点被分配给与其最相似的集群。在聚类期间,我会随着时间的推移跟踪所有聚类的大小。每当一个集群的大小超过所有大小的平均值时,我就会将该集群声明为重要集群或趋势集群。但是,如果它的大小在一段时间内保持不变,我无法找到一种方法来将该集群声明为非趋势或无关紧要的。因为如果它保持静态,则意味着人们不会发布有关该主题的推文,但是它的大小仍将高于平均值,因此即使不是,它仍将是一个趋势集群。
我想解决这个问题的一种方法是声明一个周期参数,比如 10 分钟,看看它的大小是否保持不变,然后我将其声明为非增加,因此我将其从趋势列表中删除。
我想知道是否有比周期参数更好的方法来处理这个问题,甚至如何确定周期参数?