我目前在我的 Java 项目中使用 JSON(通过 gzip 压缩),其中我需要在磁盘上存储大量对象(数亿)。我每行有一个 JSON 对象,并且不允许 JSON 对象中的换行符。通过这种方式,我可以逐行从磁盘流式传输数据,而无需一次读取整个文件。
事实证明,解析 JSON 代码(使用http://www.json.org/java/)比从磁盘上提取原始数据或解压缩它(我在运行中进行)的开销更大。
理想情况下,我想要的是一种强类型的序列化格式,我可以在其中指定“此对象字段是字符串列表”(例如),并且因为系统知道会发生什么,它可以快速反序列化它。我也可以通过给别人它的“类型”来指定格式。
它还需要是跨平台的。我使用 Java,但与使用 PHP、Python 和其他语言的人一起工作。
所以,回顾一下,它应该是:
- 强类型
- 可流式传输(即逐位读取文件,而无需一次将其全部加载到 RAM 中)
- 跨平台(包括Java和PHP)
- 快速地
- 免费(如演讲)
任何指针?