6

我正在以三种不同的方式将一些输出重定向到文件,并且每种方式都需要明显不同的时间。

$ >/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j >> /tmp/file; done; done

real    0m33.467s
user    0m21.170s
sys     0m11.919s

$ >/tmp/file ; exec 3>/tmp/file; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j >&3; done; done; exec 3>&-

real    0m24.211s
user    0m17.181s
sys     0m7.002s

$ >/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j; done; done >> /tmp/file 

real    0m17.038s
user    0m13.072s
sys     0m3.945s

有人可以在这里解释差异。我目前的理解/怀疑是:

  1. 第一个是最慢的,因为它多次打开/关闭文件,而其他只做一次。是对的吗?缓冲呢。通常,我希望所有输出都得到缓冲,在这种情况下我们不应该有这么大的时间差异。
  2. 第三,如果所有输出都只写在外循环的末尾,那么当循环仍在执行时,所有输出都存储在哪里。也许在记忆中。这是否意味着如果我回显很多内容并且只在最后写入,我可能会耗尽内存。
  3. 第 2 次更像第 1 次或第 3 次。为什么两者都如此不同。

PS:我已经运行了几次上述命令,发现时间是一致的。所以,我看到的差异一定是由于一些真正的原因。

4

1 回答 1

1
  1. 第一个版本做了一百万次echo $i $j >> /tmp/file,打开文件进行追加,写入并关闭它。

  2. 执行一百万次echo $i $j >&3与执行一百万次的不同之处在于它不是每次都打开/关闭文件,而是写入文件描述符#3。exec 3>/tmp/file打开文件进行写入并将文件描述符保存为#3 。现在,当命令将其标准输出重定向到文件描述符#3(>&3回显后的效果)时,shell 需要在执行命令之前设置此重定向,然后将先前的分配恢复到标准输出。

  3. 像这样重定向完整循环的输出>> /tmp/file对于 shell 来说要容易得多:它可以简单地执行 echo 命令,而无需设置额外的文件描述符。它只更改一次标准输出的分配。

关于缓冲:在所有三种情况下,底层文件系统都会缓冲对物理文件的访问,因此在该级别上没有区别。此外,大多数 linux 都在 /tmp 上安装了一个 tmpfs,它使您所做的一切都成为纯内存操作。因此,您在这里测量的不是 IO 性能,而是 shell 命令执行性能。您可以通过增加写入的字节数来证明这一点(向回显打印行添加一个常数值):

>/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo "1000000 $i $j" >> /tmp/file; done; done

>/tmp/file ; exec 3>/tmp/file; time for i in {1..1000}; do for j in {1..1000}; do echo "1000000 $i $j" >&3; done; done; exec 3>&-

>/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo "1000000 $i $j"; done; done >> /tmp/file

在我的 PC 上,这与没有常量“1000000”的时间相同,但写入文件的字节数是原来的两倍。

于 2012-12-01T12:32:08.383 回答