CSV 文件有四列:- tweet_id、created_at、tweet_text、tweet_media_url
tweet_text 已经是 UTF-8 编码的
import csv
f = open('tweets.csv')
csv_f = csv.reader(f)
#==============================================================================
tweet_text= []
for row in csv_f:
tweet_text.append(row[2])
#==============================================================================
def deEmojify(inputString):
inputString= inputString.encode('ascii', 'ignore').decode('ascii')
return inputString
#===============================================================================
text1="b'@JWSpry Have some fun with this! \xf0\x9f\x98\x82 I can only post four at a time - a few more are coming."
text2=deEmojify(text1)
print(text2)
输出 - b'@JWSpry 玩得开心!我一次只能发布四个 - 还会有更多。
print(tweet_text[7])
输出 -b'@JWSpry 玩得开心!\xf0\x9f\x98\x82 我一次只能发布四个 - 还会有更多。
text3=deEmojify(tweet_text[7])
print(text3)
输出 -b'@JWSpry 玩得开心!\xf0\x9f\x98\x82 我一次只能发布四个 - 还会有更多。
为什么代码对于 text1(我刚刚从 csv 复制和粘贴)工作正常,但对于 tweet_text [7] 却不行?