c++ - 我们如何将一个 100 GB 的文件拆分为一百个 1 GB 的文件？

Question

当我试图解决这个问题时，我想到了这个问题。

我有容量为 120 GB 的硬盘，其中 100 GB 被单个大文件占用。所以 20 GB 仍然是免费的。

我的问题是，我们如何将这个巨大的文件分割成更小的文件，比如每个 1 GB？我看到如果我有大约 100 GB 的可用空间，可能使用简单的算法是可能的。但是只给 20 GB 的可用空间，我们最多可以写入 20 个 1GB 的文件。我不知道如何在读取大文件时删除它的内容。

有什么解决办法吗？

一旦我写完一个文件，似乎我必须将文件截断 1 GB，但这归结为这个问题：

是否可以截断文件的一部分？具体如何？

我想看看在 C 或 C++（最好是标准 C 和 C++）中工作的算法（或算法大纲），所以我可能知道较低级别的细节。我不是在寻找可以完成这项工作的神奇函数、脚本或命令。

score 5 · Accepted Answer

这项工作没有标准功能。

对于 Linux，您可以使用ftruncate方法，而对于 Windows，您可以使用_chsize或SetEndOfFile。一个简单的#ifdef将使它跨平台。另请阅读此问答。

score 5 · Accepted Answer

根据这个问题（部分截断流），您应该能够在符合 POSIX 的系统上使用调用int ftruncate(int fildes, off_t length)来调整现有文件的大小。

现代实现可能会“就地”调整文件的大小（尽管在文档中未指定）。唯一的问题是您可能需要做一些额外的工作来确保它off_t是 64 位类型（POSIX 标准中存在 32 位off_t类型的规定）。

您应该采取措施处理错误情况，以防万一它由于某种原因失败，因为显然，任何严重的失败都可能导致您的 100GB 文件丢失。

伪代码（假设并采取措施确保所有数据类型都足够大以避免溢出）：

open (string filename) // opens a file, returns a file descriptor
file_size (descriptor file) // returns the absolute size of the specified file
seek (descriptor file, position p) // moves the caret to specified absolute point
copy_to_new_file (descriptor file, string newname)
// creates file specified by newname, copies data from specified file descriptor
// into newfile until EOF is reached

set descriptor = open ("MyHugeFile")
set gigabyte = 2^30 // 1024 * 1024 * 1024 bytes

set filesize = file_size(descriptor)
set blocks = (filesize + gigabyte - 1) / gigabyte

loop (i = blocks; i > 0; --i)
    set truncpos = gigabyte * (i - 1)
    seek (descriptor, truncpos)
    copy_to_new_file (descriptor, "MyHugeFile" + i))
    ftruncate (descriptor, truncpos)

显然，其中一些伪代码类似于标准库中的函数。在其他情况下，您将不得不自己编写。

c++ - 我们如何将一个 100 GB 的文件拆分为一百个 1 GB 的文件？

2 回答 2

Related

Reference