我打算在Twitter 上写一个主题检测工具。我一直在考虑两条推文之间的良好相似性度量(距离) ,以及如何表示它们,并计算:
#hashtags
(我认为主题标签在检测 Twitter 上的主题时非常重要)- 回复(如果有人回复一条推文,这些推文可能在谈论同一个话题,尽管两个人可以开始谈论三星银河并结束谈论iPhone 越狱等)
我正在考虑实施我目前所拥有的并做一些实验。我将实现经典模型(例如TF*IDF
并使用欧几里德距离、角度余弦等),以及带有一些相似性度量的布尔模型(Hamming、Jaccard等)。
关于如何使一些现有模型适应Twitter的任何想法或关于如何创建新模型的一些想法?