language-agnostic - 缓冲与非缓冲 IO

Question

我了解到，默认情况下，程序中的 I/O 是缓冲的，即它们是从临时存储中提供给请求程序的。我知道缓冲可以提高 IO 性能（可能是通过减少系统调用）。我已经看到了禁用缓冲的示例，例如setvbuf在 C 中。这两种模式之间有什么区别，什么时候应该使用另一种模式？

score 141 · Accepted Answer

每当您想确保在继续之前已写入输出时，您都需要无缓冲的输出。一个示例是 C 运行时库下的标准错误 - 默认情况下通常没有缓冲。由于错误（希望）很少发生，因此您想立即了解它们。另一方面，标准输出被缓冲只是因为它假设会有更多的数据通过它。

另一个例子是日志库。如果您的日志消息保存在进程的缓冲区中，并且您的进程转储核心，则很有可能永远不会写入输出。

此外，不仅系统调用被最小化，磁盘 I/O 也被最小化。假设程序一次读取一个字节的文件。使用无缓冲输入，您将访问（相对非常慢的）磁盘的每个字节，即使它可能必须读取整个块（磁盘硬件本身可能有缓冲区，但您仍然要访问磁盘控制器这将比内存访问慢）。

通过缓冲，整个块被立即读入缓冲区，然后单个字节从（内存中，非常快的）缓冲区传递给您。

请记住，缓冲可以采用多种形式，例如以下示例：

+-------------------+-------------------+
| Process A         | Process B         |
+-------------------+-------------------+
| C runtime library | C runtime library | C RTL buffers
+-------------------+-------------------+
|               OS caches               | Operating system buffers
+---------------------------------------+
|      Disk controller hardware cache   | Disk hardware buffers
+---------------------------------------+
|                   Disk                |
+---------------------------------------+

score 40 · Accepted Answer

当您已经准备好要写入磁盘的大量字节序列时，您需要无缓冲的输出，并且希望避免将额外的副本复制到中间的第二个缓冲区中。

缓冲的输出流会将写入结果累积到中间缓冲区中，仅在累积（或flush()请求）足够的数据时将其发送到 OS 文件系统。这减少了文件系统调用的数量。由于文件系统调用在大多数平台上可能很昂贵（与 short 相比memcpy），因此在执行大量小写入时，缓冲输出是一个净赢。当您已经有大缓冲区要发送时，无缓冲输出通常会更好——复制到中间缓冲区不会进一步减少操作系统调用的数量，并且会引入额外的工作。

无缓冲输出与确保数据到达磁盘无关；该功能由提供flush()，并且适用于缓冲和非缓冲流。无缓冲的 IO 写入并不能保证数据已到达物理磁盘——操作系统文件系统可以无限期地保留数据的副本，如果需要，永远不会将其写入磁盘。只需要在调用时将其提交到磁盘flush()。（请注意，close()将flush()代表您致电）。

language-agnostic - 缓冲与非缓冲 IO

2 回答 2

Related

Reference