我有 N 个要跟踪的不同关键字(为简单起见,设 N=3)。所以在 GET statuses/filter 中,我将在“track”参数中给出 3 个关键字。
现在,我将收到的推文可以来自我提到的 3 个关键字中的任何一个。问题是我想解决哪个推文对应哪个关键字。即推文和关键字之间的映射(在“track”参数中提到)。
显然,如果不对收到的推文进行任何处理,就无法做到这一点。
所以我想知道进行此处理的最佳方法是什么?在推文的文本中搜索关键字?不区分大小写怎么办?如果同一关键字中有多个单词,例如:“Katrina Kaif”,该怎么办?
我目前正在尝试制定一些正则表达式...
我在想最好的方法是使用与最初使用的状态/过滤器 API 相同的逻辑(正则表达式等)。如何知道 Twitter API 状态/过滤器本身使用什么逻辑将推文与关键字匹配?
建议?帮助?
PS:我正在使用 Python、Tweepy、Regex、MongoDb/Apache S4(用于分布式计算)