0

我需要为存储在 Linux 网络共享上的文件生成统计信息,并且希望能够在网络共享上本地运行 shell 脚本或程序以生成具有以下属性的数据点:

路径(或相对路径)| 文件名 | 文件大小 | 创建日期 | 日期更改 | 访问日期

大约有 1 到 2 百万个文件 (8TB),我想探索数据集以了解文件类型(由文件名和路径的组合决定)相对于文件总数的组织和平衡。文件和总存储量。

问题:

  1. 遍历文件系统并获取此数据的有效方法是什么?

  2. 你会推荐什么样的数据库来探索这种具有层次结构中不同级别的统计数据的数据?

4

1 回答 1

0

这就是我最终用来解决问题的方法:

  1. Linux 命令findfstat用于将数据集生成为纯文本文件。
  2. Pythonpandasexifread库用于丰富和分析数据集。
于 2014-08-09T21:57:28.497 回答