java - 如何以分布式方式处理耗时的任务？

Question

我们需要通过多个节点处理需要大量时间的任务（解析巨大的 xml 文件并将数据插入数据库）。节点不会很多，我们甚至会从单个节点开始。

这些文件将从 FTP 读取。该作业将被安排并每天进行一次。什么是分配处理的好方法？

我目前的草稿想法是：

使用 hazelcast 分布式ConcurrentMap- 它处理场景背后的地图同步
每个节点获取整个文件列表并将其打乱
然后每个节点迭代列表，使用.putIfAbsent(..)- 如果文件不在地图中，则处理它。如果它在地图中，则表示另一个节点正在处理它，因此请尝试下一个文件。

那样：

我不确定这是否是最好的方法。可以吗？有什么可以改进的？有更好的吗？

score 1 · Accepted Answer

根据您的评论，我建议考虑使用 JMS，（例如我发现使用/开发最简单的 ActiveMQ）

它可以是独立的、冗余的和/或嵌入式的。

您可以将消息添加到队列并从任意数量的节点消费。关闭自动提交后，失败的节点消息会自动返回到队列中。

1 回答 1