java - 用高效的查找 Java 键值文本存储替换巨大的转储文件

Question

我有一个巨大的转储文件 - 12GB 的文本包含数百万个条目。每个条目都有一个数字 id、一些文本和其他不相关的属性。我想将此文件转换为可提供有效查找的文件。也就是说，给定一个 id，它会快速返回文本。限制：

欢迎您的建议！

score 0 · Accepted Answer

为什么不使用JavaDb - Java 附带的数据库？

它将信息存储在磁盘上，并且在查找方面很有效，前提是您正确索引。它将在 JVM 中运行，因此您不需要单独的服务器/服务。您使用标准 JDBC 与它交谈。

我怀疑它会非常有效。这个数据库历史悠久（它曾经是 IBM 的 Derby），并且在健壮性和效率方面将花费大量精力。

您显然需要对数据进行初始载入以创建数据库，但这是一次性的任务。

score 0 · Accepted Answer

我会使用Java Chronicle或类似的东西（部分是因为我编写了它），因为它旨在随机访问大量数据（比您的机器大）。

它可以以文本或二进制格式存储任意数量的字段（如果您愿意，也可以组合存储）它为您希望能够随机访问的每条记录添加 8 个字节。它不支持删除记录（您可以标记它们以供重复使用），但您可以更新和添加新记录。

它只能有一个写线程，但可以被同一台机器上的多个线程读取（甚至是不同的进程）

它不支持批处理，但它可以每秒读取/写入数百万个条目，典型的亚微秒延迟（除了不在内存中的随机读取/写入）

它几乎不使用堆（对于 TB 的数据，<1 MB）

它使用一个连续的 id，但您可以构建一个表来执行该翻译。

顺便说一句：您可以以不到 200 美元的价格购买 32 GB。也许是时候获得更多内存了；）

2 回答 2