我很难尝试使用正确的 UTF-8 编码从字符串生成列表,我正在使用 Python(我只是在学习编程,所以对我的愚蠢问题/可怕的编码很敏感)。
源文件是推文提要(JSON 格式),在成功解析它并从所有其他内容中提取推文消息后,我设法在打印后(作为字符串)获得具有正确编码的文本。如果我尝试将它打包成列表形式,它会回到未编码的u\000000
形式。
我的代码是:
import json
with open("file_name.txt") as tweets_file:
tweets_list = []
for a in tweets_file:
b = json.loads(a)
tweets_list.append(b)
tweet = []
for i in tweets_list:
key = "text"
if key in i:
t = i["text"]
tweet.append(t)
for k in tweet:
print k.encode("utf-8")
作为替代方案,我尝试在开头使用编码(获取文件时):
import json
import codecs
tweets_file = codecs.open("file_name.txt", "r", "utf-8")
tweets_list = []
for a in tweets_file:
b = json.loads(a)
tweets_list.append(b)
tweets_file.close()
tweet = []
for i in tweets_list:
key = "text"
if key in i:
t = i["text"]
tweet.append(t)
for k in tweet:
print k
我的问题是:如何将生成的 k 个字符串放入列表中?将每个 k 字符串作为一个项目?