我正在使用 IJSON 解析一个非常大的 JSON 文件,然后将内容写入临时文件。之后,我用临时文件的内容覆盖原始文件。
FILE_NAME = 'file-name'
DIR_PATH = 'path'
#Generator function that yields dictionary objects.
def constructDictionary():
data = open(os.path.join(DIR_PATH, FILE_NAME + ".json"), "rb")
row = ijson.items(data,'item')
for record in row:
yield record
data.close()
def writeToTemp(row, temp):
#Needs to add a comma
json.dump(row, temp)
def writeTempToFile(temp):
temp.seek(0)
data = open(os.path.join(DIR_PATH, FILE_NAME + ".json"), "wb")
data.write(b'[')
for line in temp:
data.write(line.encode('utf-8'))
data.write(b']')
data.close()
if __name__ == "__main__":
temp = tempfile.NamedTemporaryFile(mode = 'r+')
for row in constructDictionary():
writeToTemp(row,temp)
writeTempToFile(temp)
temp.close()
我的问题是我最终编写的 JSON 对象之间没有逗号。我无法再次解析文件并添加缺少的逗号,因为它需要的时间太长。理想情况下,在编写时,我可以在每个 json.dump() 的末尾添加一个逗号。但是,我将如何处理最终条目?
确定生成器函数何时到达文件末尾的某种方法?然后我会使用一个标志或传递一个变量,这样它就不会写出最后的逗号。
或者,我可以使用 file.seek() 转到最后一个字符之前的字符并将其删除。但这听起来不太好。
我将不胜感激任何建议,谢谢。