1

正如你在这个答案中看到的。似乎就地编辑文本文件比创建新文件、删除旧文件以及从另一个文件系统移动临时文件并重命名它需要更多的时间。更不用说在同一个文件系统中创建一个新文件并重命名它。我想知道这背后的原因是什么?

4

2 回答 2

2

因为当您就地编辑文件时,您正在打开同一个文件进行写入和读取。但是当你使用另一个文件时。您只能从一个文件中读取并写入另一个文件。当您打开一个文件进行读取时,它的内容会从磁盘移动到内存。然后,当您要编辑文件时,您可以更改磁盘中文件的内容,以便更新内存中的内容以防止数据不一致。但是当你使用一个新文件时。您不必更新内存中第一个文件的内容。您只需读取整个文件一次并写入另一个文件一次。并且不要更新任何东西。删除文件也需要非常短的时间,因为您只需将其从文件系统中删除,并且不会将任何位写入磁盘中文件的位置。重命名也是如此。

还有一个更重要的原因。

当您从第一行的开头删除数字时,所有其他字符都必须向后移动一点。然后,当您再次从第二行中删除数字时,该点之后的所有字符都必须向后移动,因为字符必须是连续的。如果您只想更改某些字符,则原地编辑会更快一些。但是,由于您在每次删除时都更改了文件的长度,因此所有其他字符都必须移动,这需要花费大量时间。它不完全是这样,并且根据您的操作系统和文件系统的实现,它要复杂得多,但这就是它背后的想法。这就像数组操作。当您从数组中删除单个元素时,您必须移动数组的所有其他元素。因为它是一个数组。相反,如果要从链表中删除一个元素,则不需要移动其他元素,但文件的实现类似于数组,就是这样。

于 2018-01-04T20:46:26.950 回答
0

虽然 tgwtdt 的回答可能会提供一些很好的见解,但它并不能解释一切。下面是一个 140MB 文件的反例:

$ time sed 's/a/b/g' data > newfile
real    0m2.612s

$ time sed -i -- 's/a/b/g' data 
real    0m9.906s

为什么这是一个反例,你可能会问。因为我替换abwhich 意味着替换文本具有相同的长度。因此,不需要移动数据,但仍需要大约四倍的时间。

虽然 tgwtdt 很好地解释了为什么就地通常需要更长的时间,但对于一般情况,这是一个无法 100% 回答的问题,因为它取决于实现。

于 2018-01-04T22:09:28.467 回答