问题标签 [oozie-coordinator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
825 浏览

hadoop - Oozie 工作流程和协调员

我有 2 个属性文件,一个用于工作流,一个用于协调器。./job.properties 和 ./coordinator/job.properties

2 个文件是相同的,除了在协调器中设置了一些额外的变量。以下是这些变量

运行工作流时一切正常,但运行协调器时出现错误错误:错误:E0301:E0301:资源无效 [文件名]

该文件名存在,当我执行 hadoop fs -ls [filename] 时,它会被列出。

我在这里做错了什么。

谢谢

0 投票
1 回答
183 浏览

hive - oozie 协调器中的 Hive 查询

我使用 oozie 协调器运行 10 个 hive 脚本,它以相同的百分比卡在 reduce 阶段的一个脚本中,没有任何错误,脚本是简单的插入语句,我在命令行上测试了它们,它们工作正常,我该如何调试这个?

0 投票
1 回答
1291 浏览

hadoop - Oozie 协调器未以指定的频率间隔运行

我定义了一个 Oozie 协调员工作,如下所示:

如您所见,我将频率定义为 15 分钟,并发定义为 1。

但是,该作业每 5 分钟运行一次,它同时启动我的工作流的 4 个实例,如下面的屏幕截图所示:

Oozie 截图

我不明白为什么会这样,我真的很感激一些见解!

0 投票
1 回答
190 浏览

bigdata - OOZIE - 在未知文件名上创建一个协调器应用程序

我想在文件列表上制作一个协调器应用程序,但我只知道它们的名称部分:/data/trigger/projet/*

我想解析以下 HDFS URL:

当我尝试以下代码时,oozie 没有检测到任何东西并保持在 WAITING 状态:

0 投票
1 回答
4455 浏览

hadoop - 使用 fork 而不使用 join 的 Oozie 作业

我正在创建一个工作流程,我需要在其中分叉 3 个作业,这些作业将独立执行。我没有必要加入。有没有办法在oozie中实现这一点?用叉子强制加入吗?

0 投票
1 回答
140 浏览

maven - 如何使用 Hive 0.11.0 构建 oozie 3.3.2?

如何为 Hive 0.11.0 构建 oozie 3.3.2 ?我已经修改了必要的 pom 文件以匹配配置单元版本。我收到以下异常:

更新:我可以使用 Hive 0.10.0 的 hive-builtins 吗?

0 投票
1 回答
368 浏览

hadoop - Hadoop 中的 RDMS 数据归档

我们正在探索将仓库中的数据或 RDMS 归档到 Hadoop 的选项。

事实上,我必须使用 sqoop 将数据加载到 HDFS,并且可能必须对其进行压缩。然后删除要归档的行。

问题是当我在两个表之间有外键关系时。我需要保持表之间的数据一致性。请帮助我的方法。

0 投票
0 回答
1414 浏览

hadoop - oozie java.lang.RuntimeException:配置对象时出错

我在 oozie 工作流程上遇到错误,有人可以帮助我吗?CDH4

0 投票
1 回答
93 浏览

hadoop - 如何将 Oozie 错误消息写入 HDFS?

我正在尝试实现一个处理日志文件的工作流,如果检测到错误,则从 Kill 标签:它将消息作为日志文件写入 HDFS。

谢谢您的帮助...

此致

0 投票
1 回答
1744 浏览

oozie - Oozie 上的严格协调员工作排序

我在 oozie 上有一个协调器,它运行一系列任务,每个任务都取决于最后一个任务的输出。每个任务输出一个过时的文件夹,并使用它查找其前任的输出

当没有其他东西运行时,这一切都在我的开发集群上运行良好;每 5 分钟 oozie 会排队另一个作业,并且在那 5 分钟内,前一个作业已经运行,所以当新作业设置时,它会看到它需要的目录。

我在生产集群上遇到问题;作业被提交,但被放入队列中并且不会运行一段时间,但仍然每 5 分钟 oozie 会排队另一个作业,并且在其初始化阶段,它被分配了其“上一个”文件夹,该文件夹尚未尚未创建,因为其前身尚未运行,因此“最新”功能为其提供与前一个作业相同的输入。然后我最终得到了 10 个工作都采用相同的输入......

我需要的是一种严格防止协调器序列中的下一个作业甚至在其前身完成运行之前创建的方法。有没有办法做到这一点?

谢谢阅读