我想知道一个大文件的哪一部分缓存在内存中。我正在使用来自fincore的一些代码,它的工作方式是:文件被 mmaped,然后 fincore 循环遍历地址空间并使用 mincore 检查页面,但由于文件大小(几个 TB),它非常长(几分钟) )。
有没有办法在使用过的 RAM 页面上循环?它会快得多,但这意味着我应该从某个地方获取已使用页面的列表......但是我找不到一个方便的系统调用来允许它。
代码如下:
#include <errno.h> 
#include <fcntl.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <sys/stat.h> 
#include <sys/types.h> 
#include <unistd.h> 
/* } */
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <sys/mman.h>
#include <sys/sysinfo.h>
void
fincore(char *filename) {
   int fd;
   struct stat st;
   struct sysinfo info;
   if (sysinfo(& info)) {
    perror("sysinfo");
    return;
   }
   void *pa = (char *)0;
   char *vec = (char *)0;
   size_t pageSize = getpagesize();
   register size_t pageIndex;
   fd = open(filename, 0);
   if (0 > fd) {
      perror("open");
      return;
   }
   if (0 != fstat(fd, &st)) {
      perror("fstat");
      close(fd);
      return;
   }
   pa = mmap((void *)0, st.st_size, PROT_NONE, MAP_SHARED, fd, 0);
   if (MAP_FAILED == pa) {
      perror("mmap");
      close(fd);
      return;
   }
   /* vec = calloc(1, 1+st.st_size/pageSize); */
   /* 2.2 sec for 8 TB */
   vec = calloc(1, (st.st_size+pageSize-1)/pageSize);
   if ((void *)0 == vec) {
      perror("calloc");
      close(fd);
      return;
   }
    /* 48 sec for 8 TB */
   if (0 != mincore(pa, st.st_size, vec)) {
      fprintf(stderr, "mincore(%p, %lu, %p): %s\n",
              pa, (unsigned long)st.st_size, vec, strerror(errno));
      free(vec);
      close(fd);
      return;
   }
   /* handle the results */
   /* 2m45s for 8 TB */
   for (pageIndex = 0; pageIndex <= st.st_size/pageSize; pageIndex++) {
      if (vec[pageIndex]&1) {
         printf("%zd\n", pageIndex);
      }
   }
   free(vec);
   vec = (char *)0;
   munmap(pa, st.st_size);
   close(fd);
   return;
}
int main(int argc, char *argv[]) {
    fincore(argv[1]);
    return 0;
}