0

我编写了一小段代码,使用 nftw 系统调用来进行树遍​​历。

int flags =0;
flags = flags | FTW_MOUNT;
int nopenfd = 10;

if( nftw( argv[1], sum_sizes, nopenfd, flags) == -1 )
  return EXIT_FAILURE;

使用此选项,如果目录是挂载点并取消引用符号链接(默认行为),则 nftw 不会扫描目录。

在每个文件 nftw 调用此函数:

/*total_size is the sum of each file/directory/link*/
long long int total_size, total_real_size = 0;

static int sum_sizes(const char *pathname, const struct stat *statbuf, int typeflag, struct FTW *ftwbuf)
{
/*if stat failed on the current file*/
if(typeflag == FTW_NS)
{
    printf("No stats (permissions ?) on %s", pathname);
    return 0;
}
total_size = total_size + (long long int ) statbuf->st_size;
total_real_size = total_real_size + (long long int ) ( statbuf->st_blocks * 512 );
return 0;
}

所以最后,我显示累积大小:

printf("total size: %lld (%0.2lf K %0.2lf M)\n", total_size,  (float)total_size /1024.0, (float)total_size /(1024.0*1024.0));
printf("total real size: %lld (%0.2lf K %0.2lf M)\n", total_real_size,  (float)total_real_size /1024.0, (float)total_real_size /(1024.0*1024.0));

当我将值与 du 进行比较时,我有一些差异

time ./scan_dir ~/        
====>
total size: 15208413390 (14851966.00 K 14503.87 M)
total real size: 15708553216 (15340384.00 K 14980.84 M)
block size : 4096 / fond. block size : 4096
fs size: 22.7895 G
./scan_dir ~/  0,03s user 0,24s system 98% cpu 0,277 total


time du -s ~/     
15119876    /home/cedlemo/
du -s ~/  0,07s user 0,22s system 98% cpu 0,287 total

注意:阅读 du 的手册页后,我知道 du 的行为与我的小应用程序 scan_dir 几乎相同(跳过安装点,取消引用符号链接并使用 1024 来计算 Ko 中的值)

似乎在我的应用程序中找到的更接近的值是实际大小(使用的块)的总和,但值并不完全相同。

这种差异的原因可能是什么?我做错了什么?

4

1 回答 1

1

默认情况下,du遵循符号链接。你的代码可以。

du -ks DIRECTORY/

相当于

find DIRECTORY/ -printf '%k\n' | awk '{s+=$1} END { printf "%.0f\n", s }'

它只查看每个目录条目一次,不遵循符号链接,不跨越挂载点,并输出总和st_blocks*2(即,以 1024 字节为单位)。换句话说,为文件和目录内容分配的 1024 字节单元的数量 -磁盘使用情况

另一方面,逻辑文件和目录大小的总和是

find DIRECTORY/ -printf '%s\n' | awk '{s+=$1} END { printf "%.0f\n", s / 1024.0 }'

这与磁盘使用无关,仅与存储在文件和目录中的表观信息量有关。通常这种测量仅限于常规文件,即

find DIRECTORY/ -type f -printf '%s\n' | awk '{s+=$1} END { printf "%.0f\n", s / 1024.0 }'

所以它基本上告诉用户如果他们将所有文件连接到一个大文件中他们会得到多大的文件。它是否有意义值得商榷,但许多用户发现它提供了丰富的信息。无论如何,这绝对是与磁盘使用量不同的衡量标准。


在文件统计信息(参见 参考资料man 2 fstat)中,st_blocks描述了为文件内容分配了多少 512 字节单元,以及文件st_size的逻辑大小。

大多数文件系统支持稀疏文件。这意味着当您使用truncate()或通过写入比当前文件大小更高的文件偏移量来放大文件时,文件系统根本不会存储跳过的部分。但是,阅读该部分是完全可以的;它总是读为全零。因此,一个巨大的文件可能只消耗几个块,如果它大部分是零的话。(准确地说,“跳过零”。创建文件时,仅写入零不会生成稀疏文件。您的应用程序需要跳过写入零,以生成稀疏文件。)

由于某些文件系统上的某些文件使用了间接块,因此块的数量也可能大于基于文件大小假设的一个。可能有“额外的块”被分配和占,因为文件是碎片化的或其他特殊的。无论如何,在所有典型的文件系统上,分配的块数都会四舍五入到文件系统分配大小的倍数。


在您的情况下,total size如果您要将所有文件和目录的内容连接到一个文件中,包括符号链接引用的任何重复项,则为文件的逻辑长度。

在您的情况下,如果符号链接被替换为原始文件的副本total real size,则描述为所有文件和目录分配的磁盘空间总量。

如果您更改为

flags = FTW_MOUNT | FTW_PHYS;

你应该得到total real size匹配du -s

于 2013-09-22T00:02:08.500 回答