我正在尝试实时检测 Twitter 上的热门话题。我所做的是每次收到推文时,我都会将推文分配给与推文讨论相同主题的集群。无论我使用何种聚类算法或如何将推文分配给主题,我都无法找到如何检测趋势主题。
我对趋势集群/主题的理解或定义是,在特定时间段内,它比其他集群获得更多的推文。或者更新集群大小的频率大于其他集群。
如何将该定义转换为实际代码或数学模型是我无法解决的。
这是趋势集群大小如何发展的示例:
如您所见,集群大小将为零,然后突然开始增加,因为现在它是一个热门话题,并且正在将推文分配给集群。一旦集群不再是热门话题,那么集群大小将保持相对静态。