指导方针是什么,或者我们在哪里可以找到设计系统以实现最佳并行性的指导方针。我知道数据是在各个节点上拆分的,并为此进行了优化。
我在文件中的数据目前有多个客户、站点、产品和用户。我需要按客户、站点、产品进行汇总,这意味着可以在各个节点中轻松计算该数据的子集,并在处理结束时将其带回单个节点进行输出。
但是,我没有在作业图中看到那种级别的并行性。它正在显示 MDOP,但不是以一种看起来最佳的方式。我有 4 种不同的计算,它们是在客户、站点、产品上独立完成的。它与 4 个计算并行,但在整个数据集上进行。实际上,它应该能够将其扇出,例如 10 个节点每个有 1 个客户,然后每个节点都可以将其计算扇出到另外 4 个节点。(此处仅注意数字,例如,数据规模要大得多)。
如何优化文件布局或 U-SQL 逻辑以鼓励更多 MDOP?