我看到了这个问题,它侧重于“布兰妮斯皮尔斯”问题。但我有一点不同的问题。算法如何确定哪些单词或短语需要排名?例如,如果我发送一条推文说“迈克尔杰克逊死了”,它怎么知道拉出“迈克尔杰克逊”而不是“死了”?
或者假设亚历克鲍德温和史蒂文鲍德温那天出现在新闻中,因此在很多推文中都提到了。它怎么知道以不同的方式对待这两个名字,而不是仅仅拔出“鲍德温”?
天真地完成,我可以将此问题视为 NP 完全问题(您必须将推文中的所有潜在短语与其他所有人推文中的所有潜在短语进行比较)。
这个问题的一般解决方案是使用“词频,逆文档频率”(tf-idf)。
这是一种统计方法,可以找到比其他词/术语更相关的单词/术语,因为它们不常出现。在这种情况下,与常见的英文单词“die”相比,“Michael Jackson”这个名字的使用频率可能非常低。
至于亚历克·鲍德温与史蒂文·鲍德温——在词性标注过程中,这些将被识别为独立的——它们将被标记为单独的专有名词。
我相信它会寻找常见的词组。此外,他们似乎在引用http://www.whatthetrend.com/
除此之外,还可能涉及到轻微的人为控制。