我正在尝试探索一个用例,例如“我们在文件中有大量数据(50B 条记录),每个文件有大约 50M 条记录,每条记录都有一个唯一标识符。文件 10 中存在的记录也可能存在于文件 100 中,但该记录的最新状态存在于文件 100 中。文件位于 AWS S3 中。
现在假设 50B 记录中的大约 1B 记录需要重新处理,一旦重新处理完成,我们需要识别曾经有这些 1B 记录的所有文件,并将这些文件的内容替换为这些 1B 唯一 ID。
挑战:目前,我们没有一个映射来告诉哪个文件包含所有唯一 ID。并且整个文件替换需要在一天内完成,这意味着我们需要并行执行。
我们已经启动了一项维护文件到唯一 ID 的映射的任务,我们需要在处理 1B 记录时加载此数据,并在此数据集中查找并确定需要内容替换的所有不同文件日期。
映射将是巨大的,因为它必须保存 50B 记录并且可能会增加,因为它是一个不断增长的系统。
有什么想法吗?