我有一个巨大的转储文件 - 12GB 的文本包含数百万个条目。每个条目都有一个数字 id、一些文本和其他不相关的属性。我想将此文件转换为可提供有效查找的文件。也就是说,给定一个 id,它会快速返回文本。限制:
- 嵌入在 Java 中,最好没有外部服务器或外语依赖项。
- 读写磁盘,而不是内存——我没有 12GB 的 RAM。
- 不会爆炸太多——我不想把一个 12GB 的文件变成一个 200GB 的索引。我不需要全文搜索、排序或任何花哨的东西——只需键值查找。
- 高效 - 数据量很大,而我只有一台机器,所以速度是个问题。可以存储大批量和/或与多个线程一起工作的工具是首选。
- 存储多个字段很好,但不是必须的。主要关心的是文本。
欢迎您的建议!