2

现在很清楚,转换的所有步骤都是并行执行的,在 Pentaho 中无法改变这种行为。

鉴于此,我们有一个带有切换任务的场景,该任务检查特定字段(从文件名读取)并决定哪个任务(映射 - 子转换)将处理该文件。这是通用逻辑的一部分,在每个映射任务之前和之后,都会执行一些样板任务,例如更新数据库记录、发送电子邮件等。

切换任务 问题是:如果我们没有“ACCC014”文件,则无法执行此转换。我知道这是不可能的,因为所有任务都是并行执行的,所以出现了第二个问题:在一些映射中,创建了 XML 文件。即使 Pentaho 使用空数据执行此任务,我们也无法找到避免创建 XML 输出文件的方法。

我们考虑将这个开关逻辑移到作业中,因为理论上它是串行的,但没有发现可以进行这种区分的条件步骤。

我们还研究了元数据注入任务,但我们不相信这是要走的路。每个子转换都做了不同的工作。其中一些更新一些表,另一些写入文件,另一些在不同数据库之间移动数据。它们都接收一些文件作为输入并返回一个 send_email 标志和一个消息字符串。没有其他的。

有没有办法做我们愿意做的事?或者没有办法重用基于默认输入/输出的部分逻辑?

编辑:添加 ACCC014 转换。是的,“不要在开始时创建文件”选项被选中。

在此处输入图像描述

4

1 回答 1

5

您可以使用Transformation Executor步骤 ( http://wiki.pentaho.com/display/EAI/Transformation+Executor ) 来有条件地执行转换。虽然我还没有真正使用过这一步,所以我不能说它的稳定性或性能。

主要改造:

像这样设置你的父转换:
主要转换设置示例 关于 Injector 步骤:在 5.2 版本中,我无法在子转换中创建字段,即使它们是在“结果行”选项卡上定义的,所以我必须定义所有这些而是在 Injector 步骤中的字段。不确定,在当前版本中是否仍然需要。

Transformation Executor 的可能调整:

  1. 可能,您想更改选项卡The number of rows to send to the transformation上的值Row grouping:将其设置为 0 以便一次发送所有行,而不是为每 N 行重新执行转换。

  2. 如果要读取子转换的输出,请在创建到后续步骤的跃点时选择“此输出将包含执行后的结果行”选项: 选择输出类型

子变换:

您可能需要的唯一更改是用 and 替换映射输入和Get rows from result输出Copy rows to result

5.2 中的已知问题:作业执行器似乎不是从“将行复制到结果”步骤中读取子转换的输出,而是从最近创建的步骤中读取的。因此,如果您在子转换中添加了一些步骤,请记住重新创建您希望从中读取输出的步骤:只需选择“将行复制到结果”,剪切它,将其粘贴回去并重新创建跃点。

于 2016-11-01T17:26:02.370 回答