我目前使用 re.findall 来查找和隔离字符串中哈希标签的“#”字符之后的单词:
hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)
它搜索 str1 并找到所有主题标签。这有效,但是它不考虑像这样的重音字符,例如:áéíóúñü¿
.
如果其中一个字母在 str1 中,它将保存主题标签,直到它之前的字母。例如,#yogenfrüz
将是#yogenfr
.
我需要能够解释从德语、荷兰语、法语和西班牙语范围内的所有重音字母,以便我可以保存主题标签,例如#yogenfrüz
我该怎么做