4

我有一个 oozie 用例,用于检查输入数据的可用性并根据数据的可用性触发 mapreduce 作业。所以我写了一个shell脚本来检查输入数据,并在oozie中为它创建了一个ssh动作,

输入数据检查的重试次数和重试间隔应该是可配置的,并且在每次重试后,如果数据仍然丢失,我必须发送警报,在指定的重试次数后,mapreduce 作业可以从可用数据开始

我写了一个工作流程如下:

<start to="datacheck" />

<action name="datacheck">
    <ssh xmlns="uri:oozie:ssh-action:0.1">
        <host>${sshUserHost}</host>
        <command>${Oozieutilsscript}</command>
    </ssh>
    <ok to="datacheckswitch" />
    <error to="fail" />
</action>

<decision name="datacheckswitch">
    <switch>
        <case to="mapreduce">${(wf:actionData('datacheck')['datatransfer'] == "complete" )}</case>
        <case to="retry">${(wf:actionData('datacheck')['datatransfer'] == "incomplete" )}</case>        
        <default to="fail" />    
    </switch>
</decision>

<action name="retry">
    <ssh xmlns="uri:oozie:ssh-action:0.1">
        <host>${sshUserHost}</host>
        <command>${Oozieutilsscript1}</command>
    </ssh>
    <ok to="retryswitch" />
    <error to="fail" />
</action>

<decision name="retryswitch">
    <switch>
        <case to="datacheck">${(wf:actionData('datacheck')['retry'] == "notfinished" )}</case>
        <case to="datacheck">${(wf:actionData('datacheck')['retry'] == "finished" )}</case>     
        <default to="fail" />    
    </switch>
</decision>

<action name="mapreduce">
...............
</action>


<!--Kill and End portion-->
<kill name="fail">
    <message>Java failed, error message[${wf:errorMessage(wf:lastErrorNode())}</message>
</kill>
<end name="end" />

只有当我执行工作流时,我才知道 oozie 不支持循环,因为它的工作流是 DAG。得到错误错误:E0707:E0707:解析时检测到循环,解析workflow.xml时节点[datacheck]

处理这个用例有什么不同的方法吗?

任何帮助表示赞赏。

4

3 回答 3

7

You can simulate loops using recursion. The key idea is that a workflow calls itself using a sub-workflow action that points to the workflow file that contains the action node.

The recursion must be stopped using a decision node.

On my blog you can find a complete example for this.

于 2015-04-23T19:45:52.243 回答
2

您可以使用子工作流概念来实现循环。这个想法是将要重复的动作提取到子流中,并根据需要从主流中多次调用它。在此处阅读更多内容:操作方法:缩短您的 Oozie 工作流程定义

于 2014-01-04T14:56:12.467 回答
2

DAG = 有向无图。这意味着您的工作流程形成的图表中不能有任何循环(循环)。

http://en.wikipedia.org/wiki/Directed_acyclic_graph

于 2013-07-16T19:22:32.667 回答