6

我打算在Twitter 上写一个主题检测工具。我一直在考虑两条推文之间的良好相似性度量(距离) ,以及如何表示它们,并计算:

  • #hashtags(我认为主题标签在检测 Twitter 上的主题时非常重要)
  • 回复(如果有人回复一条推文,这些推文可能在谈论同一个话题,尽管两个人可以开始谈论三星银河并结束谈论iPhone 越狱等)

我正在考虑实施我目前所拥有的并做一些实验。我将实现经典模型(例如TF*IDF并使用欧几里德距离角度余弦等),以及带有一些相似性度量的布尔模型(HammingJaccard等)。

关于如何使一些现有模型适应Twitter的任何想法或关于如何创建新模型的一些想法?

4

1 回答 1

5

Twitter 上的相似度度量讨论了有关可用于将来自 twitter 的数据聚集在一起的不同相似度度量的一些细节。我们基于用户连接、用户提及、地理位置、推文之间的内容相似性、用户描述之间的内容相似性和常见的#hashtags 对 Twitter 上的用户进行了一些研究。

为了在 twitter 上找到共同话题,找到讨论话题的用户之间的联系确实很有帮助,我们发现一组用户倾向于讨论一个共同话题。在这篇文章的后半部分有一些关于这个的细节。

于 2013-02-06T11:48:22.917 回答