10

当我试图解决这个问题时,我想到了这个问题。

我有容量为 120 GB 的硬盘,其中 100 GB 被单个大文件占用。所以 20 GB 仍然是免费的。

我的问题是,我们如何将这个巨大的文件分割成更小的文件,比如每个 1 GB?我看到如果我有大约 100 GB 的可用空间,可能使用简单的算法是可能的。但是只给 20 GB 的可用空间,我们最多可以写入 20 个 1GB 的文件。我不知道如何在读取大文件时删除它的内容。

有什么解决办法吗?

一旦我写完一个文件,似乎我必须将文件截断 1 GB,但这归结为这个问题:

是否可以截断文件的一部分?具体如何?

我想看看在 C 或 C++(最好是标准 C 和 C++)中工作的算法(或算法大纲),所以我可能知道较低级别的细节。我不是在寻找可以完成这项工作的神奇函数、脚本或命令。

4

2 回答 2

5

这项工作没有标准功能。

对于 Linux,您可以使用ftruncate方法,而对于 Windows,您可以使用_chsizeSetEndOfFile。一个简单的#ifdef将使它跨平台。另请阅读问答。

于 2013-04-11T03:35:47.037 回答
5

根据这个问题(部分截断流),您应该能够在符合 POSIX 的系统上使用调用int ftruncate(int fildes, off_t length)来调整现有文件的大小。

现代实现可能会“就地”调整文件的大小(尽管在文档中未指定)。唯一的问题是您可能需要做一些额外的工作来确保它off_t是 64 位类型(POSIX 标准中存在 32 位off_t类型的规定)。

您应该采取措施处理错误情况,以防万一它由于某种原因失败,因为显然,任何严重的失败都可能导致您的 100GB 文件丢失。

伪代码(假设并采取措施确保所有数据类型都足够大以避免溢出):

open (string filename) // opens a file, returns a file descriptor
file_size (descriptor file) // returns the absolute size of the specified file
seek (descriptor file, position p) // moves the caret to specified absolute point
copy_to_new_file (descriptor file, string newname)
// creates file specified by newname, copies data from specified file descriptor
// into newfile until EOF is reached

set descriptor = open ("MyHugeFile")
set gigabyte = 2^30 // 1024 * 1024 * 1024 bytes

set filesize = file_size(descriptor)
set blocks = (filesize + gigabyte - 1) / gigabyte

loop (i = blocks; i > 0; --i)
    set truncpos = gigabyte * (i - 1)
    seek (descriptor, truncpos)
    copy_to_new_file (descriptor, "MyHugeFile" + i))
    ftruncate (descriptor, truncpos)

显然,其中一些伪代码类似于标准库中的函数。在其他情况下,您将不得不自己编写。

于 2013-04-11T03:50:30.150 回答