我在 python 2.7 中编写了以下函数来清理文本,但如果不将推文变量解码为 utf8,它就无法工作
# -*- coding: utf-8 -*-
import re
def clean_tweet(tweet):
tweet = re.sub(u"[^\u0622-\u064A]", ' ', tweet, flags=re.U)
return tweet
if __name__ == "__main__":
s="sadfas سيبس sdfgsdfg/dfgdfg ffeee منت منشس يت??بمنشس//تبي منشكسميكمنشسكيمنك ٌاإلا رًاٌااًٌَُ"
print "not working "+clean_tweet(s)
print "working "+clean_tweet(s.decode("utf-8"))
任何人都可以解释为什么吗?因为我不想使用解码,因为它使graphlab中Sframe中文本的操作太慢了。