9

我一直认为 WriteFile 比 fwrite 效率更高,因为 fwrite 在内部调用了 WriteFile,但是下面的测试代码告诉我 fwrite 比 WriteFile 快得多。

fwrite 花费 2 毫秒,而 WriteFile 需要 27000(FILE_ATTRIBUTE_NORMAL),每次写入调用后都会刷新。如果我用 FILE_FLAG_WRITE_THROUGH 调用 WriteFile,并注释 FlushFileBuffers(wfile) 行,WriteFile 会更快,它花费 800。

那么 fwrite 真的会调用 WriteFile 吗?是什么造成了如此巨大的差异?fwrite 在内部是如何工作的?如何使用 API 比 fwrite 更有效地将数据写入文件?(无缓冲,同步)。

   #include <Windows.h>
   #include <stdio.h>
   #include <iostream>

   int main() {
     FILE* cfile = fopen("file1.txt", "w");
     HANDLE wfile = CreateFile("file2.txt", GENERIC_WRITE, FILE_SHARE_READ, NULL, CREATE_ALWAYS, 
           /*FILE_ATTRIBUTE_NORMAL*/FILE_FLAG_WRITE_THROUGH, NULL);
     DWORD written = 0;

     DWORD start_time, end_time;
     char * text = "test message ha ha ha ha";
     int size = strlen(text);
     int times = 999;

     start_time = timeGetTime();
     for(int i = 0; i < times; ++i) {
       fwrite(text, 1, size, cfile);
       fflush(cfile);
     }
     end_time = timeGetTime();
     std::cout << end_time - start_time << '\n';

     start_time = timeGetTime();
     for(int i = 0; i < times; ++i) {
         WriteFile(wfile, text, size, &written, NULL);
         //FlushFileBuffers(wfile);
     }
     end_time = timeGetTime();
     std::cout << end_time - start_time << std::endl;

     system("pause");
     return 0;
   }

更新: 感谢您的回答,这是答案:请参阅 VS directory\VS\crt\src\fflush.c:

    //fflush.c
    int __cdecl _fflush_nolock (FILE *str) {
        //irrelevant codes
        if (str->_flag & _IOCOMMIT) {
                return (_commit(_fileno(str)) ? EOF : 0);
        }
        return 0;
    }

所以这里有一个 _IOCOMMIT 标志,然后看 ...\src\fdopen.c

    FILE * __cdecl _tfdopen (int filedes, const _TSCHAR *mode) {
      //irrelevant codes
        while(*++mode && whileflag)
          switch(*mode) {
      //...
              case _T('c'):
                if (cnflag)
                    whileflag = 0;
                else {
                    cnflag = 1;
                    fileflag |= _IOCOMMIT;
                }
               break;
     //...
    }

_tfopen是fopen内部调用的,参考fopen的文档,我发现是这样的:

" 模式:'c'

启用关联文件名的提交标志,以便在调用 fflush 或 _flushall 时将文件缓冲区的内容直接写入磁盘。”因此,只有在调用 fopen 时设置了 'c' 标志时才会调用 _commit。

_commit 函数最终调用 FlushFileBuffers。

除此之外,我发现当我只向文件写入少量数据时(不超过缓冲区大小),如果 fwrite 没有 fflush,则文本显然不会被写入,而对于 API,即使我不调用 FlushFileBuffers,在 WriteFile 之后,当我打开文件(程序处于睡眠状态)时,内容会自动写入文件,这就是我对 flush 感到困惑的原因之一,这个操作可能是由操作系统完成的,WriteFile 将数据复制到系统缓存中,并且它的文件缓冲区由操作系统管理,因此 fflush() 仅在内部调用 WriteFile 而没有真正的刷新是合理的,系统知道何时刷新它们,可能是文件句柄关闭时或发生对该文件的另一个 I/O 访问时。所以我将基准修改为:

      start_time = timeGetTime();
for(int i = 0; i < times; ++i) {
    fwrite(text, 1, size, cfile);
    fflush(cfile);
}
end_time = timeGetTime();
std::cout << end_time - start_time << '\n';

start_time = timeGetTime();
for(int i = 0; i < times; ++i) {
    WriteFile(wfile, text, size, &written, NULL);
}
end_time = timeGetTime();
std::cout << end_time - start_time << std::endl;

结果是时间:99999 fwrite:217 WriteFile:171

因此,总而言之,要加快 API 文件写入操作:

  1. 不要显式调用 FlushFileBuffers,系统缓存中的数据会在需要时刷新到磁盘。

  2. 为 WriteFile 获取一个缓冲区,就像 fwrite 一样,因为 API 调用比简单的 memcpy 花费更多的时间,当缓冲区填满时调用 WriteFile。

4

2 回答 2

17

使用Sysinternals 中的Process Monitor (procmon)之类的工具,您会看到对 的调用与fflush()FlushFileBuffers(wfile)或对 的FILE_FLAG_WRITE_THROUGH标志CreateFile())不同。

fwrite()将数据写入缓冲区,直到该缓冲区填满,这将导致它发送缓冲区中的数据以进行WriteFile()调用。当您调用时fflush(),所有发生的事情是当前在缓冲区中的数据被传递给调用WriteFile()-fflush()不调用FlushFileBuffers()

1:21:32.9391534 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 0, Length: 24
1:21:32.9392200 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 24, Length: 24
1:21:32.9392340 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 48, Length: 24
1:21:32.9392436 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 72, Length: 24
1:21:32.9392526 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 96, Length: 24
1:21:32.9392623 AM  test.exe    6132    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 120, Length: 24

为了比较,下面是一个没有调用的fwrite()循环跟踪示例:fflush()

1:27:28.5675034 AM  test.exe    3140    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 0, Length: 1,024
1:27:28.5676098 AM  test.exe    3140    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 1,024, Length: 1,024
1:27:28.5676399 AM  test.exe    3140    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 2,048, Length: 1,024
1:27:28.5676651 AM  test.exe    3140    WriteFile   C:\temp\file1.txt   SUCCESS Offset: 3,072, Length: 1,024

这是来自WriteFile()循环的跟踪片段(带有FILE_ATTRIBUTE_NORMAL标志和显式调用FlushFileBuffers()- 它只是使跟踪中发生的事情更容易看到,因为FlushFileBuffers()调用显示在跟踪中,而不是仅显示为第二个 4KBWriteFile()调用)。

1:21:29.0068503 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 0, Length: 24, Priority: Normal
1:21:29.0069197 AM  test.exe    6132    FlushBuffersFile    C:\temp\file2.txt   SUCCESS 
1:21:29.0069517 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 0, Length: 4,096, I/O Flags: Non-cached, Paging I/O, Synchronous Paging I/O, Priority: Normal
1:21:29.0087574 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 24, Length: 24
1:21:29.0087798 AM  test.exe    6132    FlushBuffersFile    C:\temp\file2.txt   SUCCESS 
1:21:29.0088087 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 0, Length: 4,096, I/O Flags: Non-cached, Paging I/O, Synchronous Paging I/O, Priority: Normal
1:21:29.0102260 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 48, Length: 24
1:21:29.0102428 AM  test.exe    6132    FlushBuffersFile    C:\temp\file2.txt   SUCCESS 
1:21:29.0102701 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 0, Length: 4,096, I/O Flags: Non-cached, Paging I/O, Synchronous Paging I/O, Priority: Normal
1:21:29.0113444 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 72, Length: 24
1:21:29.0113602 AM  test.exe    6132    FlushBuffersFile    C:\temp\file2.txt   SUCCESS 
1:21:29.0113848 AM  test.exe    6132    WriteFile   C:\temp\file2.txt   SUCCESS Offset: 0, Length: 4,096, I/O Flags: Non-cached, Paging I/O, Synchronous Paging I/O, Priority: Normal

因此,您的基准测试显示WriteFile()循环严重劣势的原因仅仅是因为您有大约一千次调用FlushFileBuffers()不在fwrite()循环中。

于 2013-01-12T09:35:36.827 回答
5

如果设置正确,WriteFile() 可能fwrite(). WriteFile()允许您在执行您发出的 IO 请求时微调它使用的条件。

例如,您可以绕过中间缓冲 IO 子系统并直接从数据指针中提取就好像它是中间 IO 缓冲区一样,因此移除了重要的中间人。但是,设置有些限制。您的数据指针必须位于与正在写入的卷的扇区大小相等的字节边界上。fwrite()由于希望显而易见的原因,不存在这样的设施。Windows API 爱好者(大约是 J. Richter 和他的兄弟们)非常喜欢玩弄这种用法,WriteFile()以挤出他们的 Windows 程序 IO 性能的最后一滴。

如果你想知道为什么人们不是WriteFile()爱孩子,我可以向你保证很多人都是,但他们都对可移植代码一点兴趣都没有。那些(或者只是不那么关心它(Knuth 关于过早优化的说法是什么......?),选择标准设施,如fwrite().

如果您真的对 MSVCRT 的实现fwrite()以及它的工作原理感兴趣,请查看源代码。它随每个版本的 VC++ Standard 或更高版本一起提供(可能不是 Express;我从未检查过)。

于 2013-01-12T06:19:37.513 回答