基本上,所需的工作是数据库上的大量记录,并且可以一直插入更多记录:
选择状态为“NEW”的 <1000> 条记录 -> 处理记录 -> 将记录更新为状态“DONE”。
这听起来像“地图减少”。
我认为上述工作可以并行完成,甚至可以由不同的机器完成,但我担心的是:
当我选择状态为“新”的 <1000> 记录时 - 我怎么知道这些记录都没有被其他工作处理?
当然,不应多次选择和处理相同的记录。性能至关重要。天真的解决方案是在循环中完成上述基本工作。
它似乎与大数据处理/nosql/map reduce 等有关。
谢谢