我正在做一个 Java 应用程序,我必须从特定的推文集合中确定哪些是趋势主题,这些推文是通过 Twitter 搜索获得的。在网上搜索时,我发现该算法定义了一个主题是趋势,当它在特定时间有大量提及时,即在确切的时刻。所以必须有一个衰减计算,以便主题经常变化。不过,我还有一个疑问:
Twitter 如何确定推文中的哪些特定术语应该是 TT?例如,我观察到大多数 TT 是标签或专有名词。这有道理吗?还是他们分析所有单词并确定频率?
我希望有一个人可以帮助我!谢谢!
我认为除了 Twitter 之外没有人知道,但似乎主题标签确实发挥了重要作用,但还有其他因素在起作用。我认为挖掘整个文本会花费比需要更多的时间,并且会导致太多误报。
这是 Mashable 的一篇感兴趣的文章:
http://www.sparkmediasolutions.com/pdfs/SMS_Twitter_Trending.pdf
——拉尔夫·温特斯
你可能对meme tracking感兴趣,我记得,它用专有名词做一些有趣的事情,但基本上随着主题变得越来越流行而识别流中的主题:
而在Eddi中,基于主题的交互式社交状态流浏览