1

我们在公司内部进行一些文件处理\计算 简单地说,我们有一项工作或任务涉及读取一个包含超过十亿条记录的大文件,解析文件并进行一些清理并将清理后的数据写入另一个文件。我们有数百个这样的工作不断被创建、提交、运行。每个作业都处理自己的文件,因此我们不必担心并发问题。

为此,我们构建了自己的调度系统(MainFrame 和 Java 的组合)。我们目前的吞吐量约为每小时 4000 万条记录。

在我们追求更好(并提供更多容错能力)的过程中,我们正在评估 IBM 的 LSF 以帮助我们进行这种调度和创建作业。

你们有没有人觉得使用 LSF 可能会解决这个问题?我可以考虑使用 AKKA 中的参与者模型实现并围绕它编写自己的作业调度程序来实现相同的目标。

有什么想法吗?

4

1 回答 1

0

我的评论太长了,所以我把它作为一个答案,尽管它并没有真正回答你的问题(反正还没有)。

在引入新技术和推出自己的解决方案之间需要权衡取舍。您需要在不同文件或一个文件中的记录之间进行交叉引用吗?如果没有,并且您逐行处理文件,则有上百万种方法可以在不使用任何框架的情况下编写脚本。引入 Akka(或任何其他框架)可能会引入一些基础设施需求,这些需求可能比编写实际服务更昂贵。

TLDR:是的,您可以使用 Akka 来执行此操作(以及许多其他方法),但是有太多未知数来决定它是否是“最佳”解决方案(引用因为此时没有“最佳”的定义) .

于 2015-09-03T00:19:42.713 回答