python - 如何使用python从文本中提取单词？

Question

我需要提取文本中的单词和短语。例如，文本是：

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456

脚本应返回以下内容：

Привет
как
дела
еще
одно
русское
слово
слово-1224

也就是说，我需要从文本中取出所有以俄文字母（[а-яА-Яё-]）开头的单词，并且可以包含俄文字母的数字和字母。这是如何实施的？

score 1 · Accepted Answer

这比我想象的要棘手一些。从未使用过西里尔字符。我相信这应该这样做：

text =  # Set you're input unicode string here.
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text)

for word in words:
    print word

1 回答 1