1

我创建了数千个模拟的作业阵列,这些模拟在网络连接的服务器集群上执行,这些服务器都具有本地磁盘以及连接到 NFS 磁盘驱动器。

是否有一个数据库可以分布在以下列方式运行的服务器之间:

  1. 当我提交我的作业数组时,每个单独的作业在单独的服务器上运行以将结果发送到分布式数据库。
  2. 虽然作业数组仍在运行,但用户可以从数据库请求部分摘要 - 数据库可以选择不等待所有分布式节点的所有最新结果,而是以某种方式“即兴发挥”
  3. 用户可以在作业数组完成后请求完整的摘要,这会导致数据库确保它返回来自其所有节点的所有数据的准确摘要,并且所有节点仍然没有从作业接收数据(对于声明的静态时间)。

换句话说,当我告诉它时,我想要一个快速的数据库和一个准确的数据库,从 LSF 作业数组中的数千个作业接收大量数据。我需要监控 LSF 作业数组结果的进度,但愿意在监控时放弃一些准确性以提高速度,但在完成所有操作后需要准确的结果。

为每个作业存储的数据是小的作业 ID,小的 PASS/FAIL,大的作业如何失败。当分类脚本需要快速访问作业数组的所有数据库数据时,可能只对极少数作业进行抽查,直到作业数组中的所有作业结束。

4

0 回答 0