2

我有一个 Spark 应用程序,其记录包含以下信息:

  • 哈希- 项目的一些唯一标识符
  • 位置- 项目的位置
  • - 首次在该位置看到该项目的日期
  • To - 如果仍然存在则为 Null,如果项目已停止在该位置,则为日期

我只需要能够问这个问题:

日期时间 Y 的项目 X 在哪里

为快速查找索引此信息的最有效方法是什么?假设我每天有数十亿条包含项目哈希的记录,我需要用它们的位置来丰富这些记录。

我最简单的方法是存储上面的记录,按哈希分区(尽管可能有大约 1000 万条),然后加入我更大的数据源,其中哈希相同且日期>从和日期<到。这种日期比较虽然感觉应该有更好的解决方案。

关于如何以更好更有效的方式存储这些数据的任何建议?

4

0 回答 0