目前我们正在使用 ProtocolBuffers 在 python 和 C++ 之间交换数据。但是,我们遇到了协议缓冲区的最大文件大小限制,并且正在考虑将所有内容切换到 Cap'n Proto。但是,由于它与协议缓冲区有些相关,我想知道Cap'n Proto 是否也对最大文件大小有限制?
1 回答
Cap'n Proto 的最大文件大小约为 2^64 字节或 16 exbibytes——“对于任何人来说都应该足够了”。:)
Cap'n Proto 实际上是处理超大数据文件的绝佳格式,因为它支持随机访问和延迟加载。当读取一个巨大的 Cap'n Proto 文件时,我建议使用mmap()
将文件映射到内存中,然后将字节直接传递给 Cap'n Proto 实现(例如capnp::FlatArrayMessageReader
在 C++ 中)。这样,只有您实际使用的文件页面才会被操作系统带入内存。(相比之下,使用 Protocol Buffers,必须先将整个文件解析为内存中的数据结构,然后才能访问其中的任何一个。)
请注意,List
Cap'n Proto 结构中的单个值限制为 2^29-1 个元素。Text
和Data
(strings and byte blobs) 是特殊类型的列表,因此这意味着任何单个连续文本或字节 blob 都被限制为 512MB。但是,您可以有多个这样的 blob,因此可以通过将较大的数据拆分为多个文件将其存储到单个文件中。
另请注意,默认情况下,大多数 Cap'n Proto 实现在读取 Cap'n Proto 结构时会施加“遍历限制”,以防御包含指针循环的恶意数据。通常,这默认为 64MiB。对于较大的数据,您需要覆盖限制——在 C++ 中,您需要将自定义传递ReaderOptions
给MessageReader
构造函数。