3

我想在 2GB+ 文件的开头添加一个新行。我尝试了以下代码,但代码 OUT of MEMORY 错误。

myfile = open(tableTempFile, "r+")
myfile.read() # read everything in the file
myfile.seek(0) # rewind
myfile.write("WRITE IN THE FIRST LINE ")
myfile.close();
  1. 在不将整个文件放入内存的情况下写入文件文件的方法是什么?
  2. 如何在文件开头追加新行?
4

3 回答 3

4

请注意,Python 中的任何内置函数都无法做到这一点。

您可以使用 tail / cat 等在 LINUX 中轻松完成此操作。

对于通过 Python 执行此操作,我们必须使用辅助文件,并且对于非常大的文件执行此操作,我认为这种方法是可能的:

def add_line_at_start(filename,line_to_be_added):
    f = fileinput.input(filename,inplace=1)
    for xline in f:
        if f.isfirstline():
            print line_to_be_added.rstrip('\r\n') + '\n' + xline,
        else:
            print xline

笔记:

  1. 在处理大文件时,切勿尝试使用 read() / readlines() 函数。这些方法尝试将完整的文件加载到您的内存中

  2. 在您给定的代码中,seek 函数将带您进入起点,但您编写的所有内容都会覆盖当前内容

于 2012-07-25T08:45:07.687 回答
3

如果您有能力一次将整个文件存储在内存中:

first_line_update = "WRITE IN THE FIRST LINE \n"
with open(tableTempFile, 'r+') as f:
  lines = f.readlines()
  lines[0] = first_line_update
  f.writelines(lines)

除此以外:

from shutil import copy
from itertools import islice, chain 
# TODO: use a NamedTemporaryFile from the tempfile module
first_line_update = "WRITE IN THE FIRST LINE \n"
with open("inputfile", 'r') as infile, open("tmpfile", 'w+') as outfile:
  # replace the first line with the string provided:
  outfile.writelines(
    (line for line in chain((first_line_update,), islice(infile,1,None)))
  # if you don't want to replace the first line but to insert another line before
  # this simplifies to:
  #outfile.writelines(line for line in chain((first_line_update,), infile))
copy("tmpfile", "infile")
# TODO: remove temporary file
于 2012-07-25T08:54:49.467 回答
2

一般来说,你不能这样做。文件是字节序列,而不是行序列。此数据模型不允许在任意点插入 - 您可以将一个字节替换为另一个字节,也可以在末尾附加字节。

您可以:

  • 替换文件中的前 X 个字节。如果您可以确保第一行的长度永远不会改变,这可能对您有用。
  • 截断文件,写第一行,然后重写它之后的所有其余部分。如果您无法将所有文件放入内存中,则:
    • 创建一个临时文件(该tempfile模块将为您提供帮助)
    • 写下你的台词
    • 打开您的基本文件r并将其内容复制到第一行之后的临时文件,分段
    • 关闭两个文件,然后用临时文件替换输入文件

(请注意,追加到文件的末尾要容易得多 - 您需要做的就是以追加a模式打开文件。)

于 2012-07-25T09:21:33.093 回答