1

我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是协调员只有在创建指定的文件时才应该执行工作流。如果文件没有被创建,协调器应该等到文件被创建。我尝试过使用以下代码:

<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-23)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
    </workflow>
  </action>     
</coordinator-app>

我启动了 Oozie 工作,它处于 WAITING 状态。我已经执行了脚本,它将在 HDFS 的指定目录结构中创建文件 (trigger.dat) (hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/ ${HOUR})。文件已创建,仍处于等待状态。

任何人都可以帮我解决这个问题..

4

1 回答 1

1

我已经更改了开始和结束日期,它现在正在工作。

coordinator.xml 的工作是:

<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-1)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
      <configuration>
        <property>
          <name>property1</name>
          <value>${coord:dataIn('coordInput1')}</value>
        </property>
      </configuration>
    </workflow>
  </action>     
</coordinator-app>

我观察到的一些观点是:

  1. 预期的目录结构基于我们定义的数据集的 initial-instance="2015-01-12T04:02Z" 和 frequency="30"。

  2. 如果没有在下面声明属性数据集,Oozie 将不会考虑

    <property> <name>property1</name> <value>${coord:dataIn('coordInput1')}</value> </property>

  3. Oozie 始终考虑 GMT/UTC 时区。在安排任何工作流程时,请记住 GMT 并相应地安排。

  4. 在创建目录之前,协调器作业将处于 RUNNING 状态,但工作流作业将处于 WAITING 状态。

于 2015-01-12T09:35:48.463 回答