我是 python 新手,有一个问题:
我检查了类似的问题,检查了进入 python的教程,检查了 python 文档、googlebing、类似的 Stack Overflow 问题和其他十几个教程。
我有一段 python 代码读取包含 20 条推文的文本文件。我可以使用以下代码提取这 20 条推文:
with open ('output.txt') as fp:
for line in iter(fp.readline,''):
Tweets=json.loads(line)
data.append(Tweets.get('text'))
i=0
while i < len(data):
print data[i]
i=i+1
上面的 while 循环完美地迭代并打印出 20 条推文(行)output.txt
。但是,这 20 行包含非英文字符数据,如"Los ladillo a los dos, soy maaaala o maloooooooooooo"
、URL 等"http://t.co/57LdpK"
、字符串"None"
和带有这样 URL 的照片"Photo: http://t.co/kxpaaaaa
(出于隐私考虑,我对此进行了编辑)
我想清除此(即 a list
)的输出,并排除以下内容:
- 参赛
None
作品 - 任何以字符串开头的东西
"Photo:"
- 如果我可以排除非 unicode 数据,那也将是一个奖励
我尝试了以下代码
- 使用
data.remove("None:")
但我得到错误list.remove(x): x not in list.
- 将我不想要的项目读入一组,然后对输出进行比较,但没有运气。
- 研究列表推导,但想知道我是否在这里寻找正确的解决方案。
我来自 Oracle 背景,其中有一些功能可以删除任何想要/不需要的输出部分,所以在过去的 2 个小时里真的绕了一圈。非常感谢任何帮助!