我正在尝试开发一个函数来从段落中提取主题标签,基本上是以 # ( #cool
#life
#cars
#سيارات
)开头的单词
我尝试了几种方法,例如使用split()
和使用正则表达式,但没有尝试包含阿拉伯语、俄语等的 unicode 字符。
我尝试使用split()
which 工作正常,但它会包含任何单词,在我的情况下,我不能包含带有特殊字符的单词,例如,.%$]{}{)(..
还尝试包含一些验证,例如单词长度不超过 15 个字符。
我试过这种方法 -
def _strip_hash_tags(self, ):
"""tags should not be more than 15 characters"""
hash_tags = re.compile(r'(?i)(?<=\#)\w+')
return [i for i in hash_tags.findall(self.content) if len(i) < 15]
这仅适用于英语,不适用于外语。有什么建议吗?