问题标签 [sparse-file]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1562 浏览

linux - 如何在 Macos 上创建稀疏文件

我正在尝试使用以下文章http://extrabright.com/blog/2010/03/30/how-to-know-if-a-file-on-了解稀疏文件和非稀疏文件之间的区别linux-is-sparse/

我还创建了这里提到的稀疏文件http://prefetch.net/blog/index.php/2009/07/05/creating-sparse-files-on-linux-hosts-with-dd/ 。

但是每次创建文件时,我都会看到块大小等于文件的实际大小(上述稀疏文件创建)

然后使用 ls 命令验证文件是否为稀疏文件

有人可以解释一下我在这里缺少什么。

注意:操作系统是 MAC-OS 10.12.3,上面的东西在Ubuntu中可以正常工作。

0 投票
0 回答
62 浏览

azure - azure vhd 存储池空间使用情况

我有 4 个 1TB VHD 磁盘连接到单个 VM。在 VM 中,我从 4 = 4TB 创建了一个简单的固定存储池。在磁盘管理器中,我创建了一个 4TB 卷/分区。音量只有 30% 满。VHD 是稀疏的,所以我预计底层 VHD 仅使用 1.3TB 左右,但根据门户网站,4 个 VHD 总共使用 920GB、920GB、577GB 和 1GB(=2.4TB)。这种差异可以解释吗?

使用的各种空间的组合截图

VD 大小/列数等: 在此处输入图像描述

0 投票
1 回答
951 浏览

database - 为什么 LMDB 数据库占用的数据量超过实际数据量?

我在 LMDB 数据库中放置了大约 11K 键和值。LMDB 数据库文件大小变为 21Mb。

对于相同的数据,leveldb 仅占用 8Mb(快速压缩)。

LMDB 环境信息,

为了检查为什么 LMDB 文件大小更大,我遍历了数据库中的所有键和值。所有键和值的总大小为 10Mb。

但文件的实际大小为 21Mb。剩余的文件大小为 11Mb (21Mb - 10Mb) 用于什么目的???!!。

如果我在 put 操作之前压缩数据,只有 2Mb 减少了

为什么 LMDB 数据库文件大小大于实际数据大小?

有什么办法缩小吗?

0 投票
2 回答
385 浏览

machine-learning - 少样本和特征的机器学习算法

我打算做一个是/否分类器。问题是数据不是来自我,所以我必须使用我得到的东西。我有大约 150 个样本,每个样本包含 3 个特征,这些特征是连续的数值变量。我知道数据集很小。我想问你两个问题:

A)什么是最好的机器学习算法?支持向量机?神经网络?我读过的所有内容似乎都需要一个大数据集。

B)我可以通过添加一些不包含所有特征的样本来使数据集更大一点,只有一两个。我读过你可以在这种情况下使用稀疏向量,这对每个机器学习算法都可行吗?(我在 SVM 中见过它们)

非常感谢你的帮助!!!

0 投票
1 回答
767 浏览

linux - Linux 内核为什么以及如何为 coredump 创建稀疏文件?

目前我正在使用 Linux 4.0.6。在 coredump 激活后,我观察到生成的 corefiles 被创建为稀疏文件。例如,该ls命令显示我的核心文件的大小为 42 MB。但是,该du命令显示它只分配了 26.3 MB。

我对此观察的问题:

  1. 为什么 Linux 内核会为 coredump 创建一个稀疏文件?
  2. 它是如何工作的?它是否取决于放置核心转储的文件系统?
  3. 我可以配置系统/内核以防止核心转储作为稀疏文件吗?
0 投票
0 回答
64 浏览

database - 如何将 Svmlight 数据转换为数据库

我使用的是 Svmlight 格式的数据(你可能知道它是 libsvm)

是格式

我试图创建一个 SQL 数据库来存储它,问题是格式是稀疏的,并且在常规数据库中存储数据将非常耗时,如果我以稀疏格式存储它(每行的字符串)我不能按列内容查询东西(例如->我需要查询所有包含特征值的行#)

我正在寻找一种直接的方式将其转换为数据库,从而使过滤和查询更快、更简单。

任何人都可以向我指出一个合适的数据库解决方案,如果可能的话,一个已经制作的用于转换的实用程序?

谢谢!

0 投票
0 回答
311 浏览

sparse-file - 一次占用所有 fallocate()d 空间的稀疏文件

我正在尝试创建一个稀疏文件(用于 QEMU HDD 图像)。

两者都qemu-imgfallocate证明是令人困惑的。

注意101M. strace显示成功的系统调用:

我不确定是否stat是正确的工具,但以防万一..

一个可能的(非常奇怪的)线索:104857600/204808 = 511.9800. (文件大小/块数)

qemu-img有类似的输出。(我preallocation在手册中找到了该选项。)

这是令人讨厌的一点:图像似乎正在使用磁盘上的实际空间。

然而,就像一个稀疏文件一样,它不需要时间来创建!

0.91 秒,在 5400RPM 硬盘上。我不可能不创建稀疏文件。

然而,无论我使用什么工具,它似乎都立即使用了 101MB 的空间。

我可能做错了什么或配置错误?

0 投票
1 回答
1496 浏览

linux - 如何快速从 ESXi 复制稀疏文件?

我有 ESXi 6.0,我需要从中复制一个大小约为 900GB 且实际大小为 5GB 的稀疏文件到另一台 Linux 机器。

我从 SCP 开始,它需要很长时间,因为它不知道稀疏文件。

接下来我尝试使用“tar -S”对稀疏文件进行 tar,但不幸的是 -S 选项在 ESXi 上不可用。

结束了另一个选项“rsync”工具,但默认情况下它不适用于 ESXi。

ESXi上有没有办法快速将稀疏文件复制到其他系统?

0 投票
1 回答
785 浏览

python - 稀疏文件:如何查找内容

如果我创建一个文件,用于lseek(2)跳转到(空)文件中的较高位置,然后在那里写一些有价值的信息,我会在 Unix 系统上创建一个稀疏文件(可能取决于我使用的文件系统,但假设我' m 使用典型的 Unix 文件系统,如 ext4 或类似文件,就是这种情况)。

如果我然后lseek(2)到文件中更高的位置,也在那里写一些东西,我最终会得到一个稀疏文件,其中包含有价值的信息,其中包含大量的稀疏文件。我想在文件中找到这些有价值的信息,而不必完全阅读它。

例子:

这将创建一个仅使用 8k 磁盘空间的 2TB 文件:

它中间的某个地方(1TB + 42 字节)是有价值的信息(foo)。

我当然可以找到它cat sparse,但这会读取完整的文件并打印大量的零字节。我尝试使用较小的尺寸,发现这种方法在我的计算机上打印三个字符大约需要 3 小时。

问题是:

有没有办法在不读取所有空块的情况下找到存储在稀疏文件中的信息?我可以使用标准 Unix 方法以某种方式找出空块在稀疏文件中的位置吗?

0 投票
0 回答
149 浏览

c# - 稀疏文件压缩区域与稀疏范围

我是稀疏文件的新手,想知道压缩区域和稀疏范围是否相同。

我最近从这里学习了术语压缩单元:http: //www.flexhex.com/docs/articles/sparse-files.phtml

对于压缩或稀疏文件,NTFS 将文件划分为称为压缩单元的块。

但是在此示例中,它们具有稀疏范围: https ://code.msdn.microsoft.com/windowsdesktop/CSSparseFile-6e26dc97

SetSparseRange...最小稀疏大小为 64KB。

从其他地方阅读,我看到 NTFS 磁盘簇的大小为 4kb,Windows 将压缩单元定义为 16 个单元的集合,每个 4kb ... 16 * 4 == 64kb 那么它们是否相同?

我可以在 Microsoft NT 世界中如何使用与其他术语(压缩单位)不同的术语(压缩单位)(稀疏范围),但我不确定我是否正确。

我很难找到完整的文档,所以如果你知道任何资源,我很乐意研究它们。

TIA