0

谁能告诉我 Twitter.com 使用什么算法对包含多个单词的趋势主题进行分类?当只处理只有单个词的趋势时,问题很容易,例如“#SoulTrainAwards”或“#DontYouWish”。但在处理多词趋势时,例如“Chrisette Michelle”或“万圣节快乐”或“圣诞快乐”,这是一个完全不同的问题,因为多词趋势上的一个词可能是另一种不同的趋势。例如说“快乐”这个词,或者单独说“圣诞节”这个词。

4

1 回答 1

1

正如用户judotens这个问题上指出的那样,您可以将消息划分为 n-gram。我相信 Twitter 在一个热门话题上最多使用 3 个词,所以消息

猫吃了食物。

将导致以下项目

  • 猫吃了
  • 猫吃了
  • 吃了食物
  • 那只猫
  • 猫吃了
  • 吃了
  • 食物
  • 食物

然后,我相信它使用该数据作为某种流算法的输入,该算法将返回最常见的项目。

于 2012-01-28T02:18:04.190 回答