2

是否有公共 API 或 Java 库可以将 Twitter Hashtags 从有限集中分类为主题/类别。

我需要根据他们的主题标签找到每个 Twitter 帖子的主题。例如:

/#FIFA12 会将这篇文章归类为 VIDEO_GAMES/GAMES 或 ENTERTAINMENT 等。

4

1 回答 1

1

我不知道有什么 API 可以做到这一点,但一种方法是查看映射到 Wikipedia 标题的主题标签。例如,维基百科中有一个“FIFA12”标题(重定向到不同的页面)。除非字符串不明确,否则您应该能够将大量主题标签映射到 Wikipedia 标题。

一旦你有了标题,你就可以遍历维基百科图并获得父子类别关系。例如 FIFA12 在维基百科中被归类为以下类别。

2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
IOS games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011 

这些类别中的每一个都会有更多的父母。例如“2011 电子游戏”有父母

2011 works
21st-century video games
2011 in video gaming
2011 software

您可能可以在每个广度优先搜索级别使用带有阈值(例如 2+)的“多数票”来减少需要分析的节点数量。在某些时候,您可以想出一个启发式方法来停止。例如,“视频游戏”类别与 FIFA12 相距三跳,并且可以通过多条路径到达。提出最佳启发式方法并非易事,但这里有一些很容易实现的成果。

于 2012-08-20T23:40:01.080 回答