问题标签 [oozie-coordinator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
766 浏览

shell - 在 oozie 中调度/运行 mahout 命令

我正在尝试使用 oozie scheduler 运行 mahout 命令 - sequence2sparse,但它给出了一些错误。我尝试使用 oozie - shell 标签运行 mahout 命令,但没有任何效果。

以下是 oozie 工作流程 -

我还尝试创建一个 shell 脚本并在 oozie 中运行它

与 job.properties 作为

和 generateBrandSparseFile.sh 是

但没有一个选项有效。后一个的错误是 -

SLF4J:有关说明,请参见http://www.slf4j.org/codes.html#multiple_bindings。SLF4J:实际绑定的类型为 [org.slf4j.impl.Log4jLoggerFactory] ​​sudo:不存在 tty,也没有指定 askpass 程序 15/06/05 12:23:59 WARN driver.MahoutDriver:在类路径上找不到 seq2sparse.props,将仅使用命令行参数 15/06/05 12:24:01 INFO vectorizer.SparseVectorsFromSequenceFiles:最大 n-gram 大小为:1

对于sudo: no tty present这个错误,我已经注释掉 /etc/sudoers - Defaults !requiretty

Mahout 安装在安装 oozie 服务器的节点上。

以下 oozie 工作流程也无效-

错误-Error: E0701 : E0701: XML schema error, cvc-complex-type.2.4.a: Invalid content was found starting with element 'ssh'. One of '{"uri:oozie:workflow:0.4":map-reduce, "uri:oozie:workflow:0.4":pig, "uri:oozie:workflow:0.4":sub-workflow, "uri:oozie:workflow:0.4":fs, "uri:oozie:workflow:0.4":java, WC[##other:"uri:oozie:workflow:0.4"]}' is expected.

在所有节点上安装 mahout 会有帮助吗?-(oozie 可以在任何节点上运行脚本)。有没有办法让 mahout 在 hadoop 集群上可用?

也欢迎任何其他解决方案。

提前致谢。

编辑:我稍微改变了方法,现在我直接调用 seq2sparse 类。工作流程是 -

作业仍然没有运行,错误是

0 投票
2 回答
3469 浏览

shell - How to invoke an oozie workflow via shell script and block/wait till workflow completion

I have created a workflow using Oozie that is comprised of multiple action nodes and have been successfully able to run those via coordinator.

I want to invoke the Oozie workflow via a wrapper shell script.

The wrapper script should invoke the Oozie command, wait till the oozie job completes (success or error) and return back the Oozie success status code (0) or the error code of the failed oozie action node (if any node of the oozie workflow has failed).

From what I have seen so far, I know that as soon as I invoke the oozie command to run a workflow, the command exits with the job id getting printed on linux console, while the oozie job keeps running asynchronously in the backend.

I want my wrapper script to block till the oozie coordinator job completes and return back the success/error code.

Can you please let me know how/if I can achieve this using any of the oozie features?

I am using Oozie version 3.3.2 and bash shell in Linux.

Note: In case anyone is curious about why I need such a feature - the requirement is that my wrapper shell script should know how long an oozie job has been runnig, when an oozie job has completed, and accordingly return back the exit code so that the parent process that is calling the wrapper script knows whether the job completed successfully or not, and if errored out, raise an alert/ticket for the support team.

0 投票
1 回答
1963 浏览

hive - 使用“>”通过 oozie 保存 hive 输出

在 oozie 中可能有这样的事情吗?

对于上述代码,我有以下 oozie hive 操作,如下所示:

我怎样才能告诉脚本输出应该去哪里?

0 投票
1 回答
527 浏览

hadoop - 如何在 Hue v3.7 中导出 Oozie 协调器?

我想知道如何在 Hue 3.7 中导出协调器,因为我认为通过该版本的 UI 尚无法实现。Hue 节点上是否有存储这些内容的位置,或者对配置进行一些手动练习?为了备份/迁移的目的,我需要一些导出。

谢谢

0 投票
1 回答
340 浏览

oozie - Oozie 作业花费的时间比预定间隔长

我正在安排 Oozie MapReduce 作业每 15 分钟运行一次。我想知道如果每项工作都需要比设定时间更长的时间会发生什么?会导致工作积压吗?或者 Oozie 会在前一个作业仍在运行时为新作业创建一个新任务/线程/分叉?

0 投票
1 回答
1034 浏览

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个蜂巢表。现在我需要编写一个工作流程,每天的工作将在一个位置搜索文件 -

因此,每天的工作流程都会自动选择文件名并将数据加载到 Hive 表(MyTable)中。

我正在编写加载脚本,如下所示 - LOAD DATA INPATH "/data/${filepath}" OVERWRITE INTO TABLE MyTable。

现在,在运行与普通配置单元作业相同的情况下,我可以将文件路径设置为 data_2015-07-07.csv ,但是如何在 Oozie 协调器中执行此操作,以便它自动选择名称为日期的路径。

我尝试从 Oozie 协调器设置工作流参数-

0 投票
1 回答
1772 浏览

oozie - Oozie coordinator-app:每 N 分钟执行一次作业,可被 M 整除

我有一个 Hive 脚本,我每 10 分钟使用 Oozie 协调器执行一次。当我启动我的 Oozie coordinator-app 时,假设我在 08:03 开始​​,第一个工作流在那个时间开始,接下来是 08:13,然后是 08:23,以此类推。

我想要的是每个时钟时间 hh:mm 执行工作流,其中 mm 可以被 10 整除。假设上面相同的场景,我想要发生的是:第一个工作流将在 08:10 执行,然后是 08: 20,以此类推。

我如何在 Oozie 中执行此操作?每 5 分钟(最后一个 m 是 5 或 0)怎么样?感谢您的输入。

0 投票
1 回答
1970 浏览

hadoop - 如何在 oozie 工作流任务之间传递数据

Oozie 有一组丰富的指令来描述任务之间所需的控制流。它有什么东西可以帮助在这些任务之间传递数据吗?或者传递数据是一种完全留给用户的练习?

更新:我正在使用 shell 操作来调用 spark,所以我需要一个足够通用的解决方案来包含该用例。

0 投票
2 回答
713 浏览

oozie - 如何改变 oozie 工作协调员的价值?

我有一个由 oozie 协调员安排的 mapreduce 作业,每 4 小时运行一次。这个 mapreduce 作业有一个参数,比如说 k,它的值是在 job.config 文件中设置的。我想知道我是否在两次运行之间更改了此参数的值,它是选择更新的(新)值还是坚持原始(旧)值?

0 投票
1 回答
88 浏览

hadoop - Oozie 在目录中生成一组文件

我正在尝试将日志文件摄取到 hadoop 中。

我想使用 oozie 来触发我的摄取任务(用 spark 编写),并让 oozie 将文件名传递给我的任务。

我希望将日志文件设置为:

(ETC)。

所以,现在我有两个问题:1.如何让oozie生成/example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log1下的所有文件名/ 并将其传递给我的应用程序;和

  1. 如何让 oozie 并行生成 /example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log2/ 下的所有文件名并将其传递给第二次调用我的任务。