python - 使用 Python 正则表达式处理 twitter 数据

Question

我正在过滤我的应用程序中的推文，并希望返回文本中包含特定单词的所有推文。因此，如果我正在过滤 BBC，并且我想要 BBC 的所有实例，例如。BBC、bbc、BBC1、#BBC、@bbc，我该如何编写正则表达式。

到目前为止，我正在做：

re.compile(r'#|@[0-9]'+term, re.IGNORECASE)

术语是一个包含单词的列表，我只想返回列表中的那些单词，额外的 @ 或 # 或 0-9 前置或附加该单词或单词本身。

谢谢

score 2 · Accepted Answer

使用'\b'分隔符查找整个单词：

re.compile(r'\b(?:#|@|)[0-9]*%s[0-9]*\b' % re.escape(term), re.IGNORECASE)

1 回答 1