我正在尝试解压缩一些.json.gz
文件,但gzip
向其中添加了一些字符,因此使其对 JSON 不可读。
您认为是什么问题,我该如何解决?
如果我使用7zip等解压软件解压文件,这个问题就消失了。
这是我的代码:
with gzip.open('filename' , 'rb') as f:
json_content = json.loads(f.read())
这是我得到的错误:
Exception has occurred: json.decoder.JSONDecodeError
Extra data: line 2 column 1 (char 1585)
我使用了这段代码:
with gzip.open ('filename', mode='rb') as f:
print(f.read())
并意识到文件以b'
(如下所示)开头:
b'{"id":"tag:search.twitter.com,2005:5667817","objectType":"activity"
我认为b'
这是使该文件无法用于下一阶段的原因。你有什么办法可以去掉b'
?这个压缩文件有数百万个,我不能手动这样做。
我在以下链接中上传了这些文件的示例, 只是几个 json.gz 文件