Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我需要提取文本中的单词和短语。例如,文本是:
Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456
脚本应返回以下内容:
Привет как дела еще одно русское слово слово-1224
也就是说,我需要从文本中取出所有以俄文字母([а-яА-Яё-])开头的单词,并且可以包含俄文字母的数字和字母。这是如何实施的?
[а-яА-Яё-]
这比我想象的要棘手一些。从未使用过西里尔字符。我相信这应该这样做:
text = # Set you're input unicode string here. words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text) for word in words: print word