0

我在 python 2.7 中编写了以下函数来清理文本,但如果不将推文变量解码为 utf8,它就无法工作

# -*- coding: utf-8 -*-
import re
def clean_tweet(tweet):
    tweet = re.sub(u"[^\u0622-\u064A]", ' ', tweet, flags=re.U)
return tweet
if __name__ == "__main__":
      s="sadfas    سيبس sdfgsdfg/dfgdfg ffeee منت   منشس      يت??بمنشس//تبي منشكسميكمنشسكيمنك ٌاإلا رًاٌااًٌَُ"
      print "not working "+clean_tweet(s)
      print "working "+clean_tweet(s.decode("utf-8"))

任何人都可以解释为什么吗?因为我不想使用解码,因为它使graphlab中Sframe中文本的操作太慢了。

4

0 回答 0