0

我被要求找到与该项目相关的 Twitter 帐户Dominican Republic(该项目与投票有关)。这是一个奇怪的请求,因为一些 Twitter 帐户有与该帐户关联的 GeoSpatial 数据,我们不知道它是否准确。

我最终手动搜索了我知道相关的关键字:#dominican#washingtonheights我跟着他们的朋友和追随者跳了起来,我找到了我正在寻找的人。


更笼统地说:

如何搜索与给定主题关联的 Twitter 帐户? 如何训练机器人识别与给定主题相关的主题标签? 然后我们可以搜索这些关键字。


@Moderators:这不是一个真正的编码问题。如果您能想到更好的 StackExchange,请迁移它!

4

1 回答 1

0

由于您已经有一个给定的主题,我建议他关注:

  1. 通过您已经提到的这些标签手动获取几个帐户。
  2. 检索这些帐户的 X 条推文
  3. 对这些推文进行一些自然语言处理,以获得关键词的新想法。

我在这个/类似的环境中使用的一些东西:

  • tf-idf + NMF 获取主题,然后按组件排序以检索用户正在谈论的主题(用户可以有多个主题)。
  • 某种聚类(您最大的问题是数据的高冗余性,因此 PCA 可能是一种选择)
  • 使用wordnet等收集相似关键词
于 2013-11-08T09:52:24.437 回答