我有一个 Spark 应用程序,其记录包含以下信息:
- 哈希- 项目的一些唯一标识符
- 位置- 项目的位置
- 从- 首次在该位置看到该项目的日期
- To - 如果仍然存在则为 Null,如果项目已停止在该位置,则为日期
我只需要能够问这个问题:
日期时间 Y 的项目 X 在哪里
为快速查找索引此信息的最有效方法是什么?假设我每天有数十亿条包含项目哈希的记录,我需要用它们的位置来丰富这些记录。
我最简单的方法是存储上面的记录,按哈希分区(尽管可能有大约 1000 万条),然后加入我更大的数据源,其中哈希相同且日期>从和日期<到。这种日期比较虽然感觉应该有更好的解决方案。
关于如何以更好更有效的方式存储这些数据的任何建议?