问题标签 [oozie-workflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
287 浏览

hadoop - 将变量传递给 oozie 案例部分不起作用

我有一个 oozie 动作,它具有以下节点。

工作节点::

当我尝试使用 job.properties 中的可变值参数化使用的路径时,它不起作用。

我得到以下错误。

EL_ERROR 索引 0 处路径中的非法字符:{bucket_name}/data/processor_controller/outbound/raw_events

0 投票
1 回答
241 浏览

maven - 在 hadoop 2.7.3 上安装 oozie 4.3.0 错误

当我尝试创建 oozie 发行版时,我正在尝试在 hadoop 2.7.3 上安装 oozie 4.3.0。它因以下错误消息而失败。

还要检查正确提到的 setting.xml 代理标签,但无法弄清楚问题所在。

0 投票
1 回答
81 浏览

mapreduce - 自定义分区器在 Oozie Mapreduce 操作中不起作用

我已经在 mapreduce 中实现了二级排序,并尝试使用 Oozie(来自 Hue)来执行它。

虽然我在属性中设置了分区器类,但分区器并没有被执行。所以,我没有得到预期的输出。

使用 hadoop 命令运行相同的代码时运行良好。

这是我的 workflow.xml

使用 hadoop jar 命令运行时,我使用 JobConf.setPartitionerClass API 设置分区器类。

不知道为什么我的分区器在使用 Oozie 运行时没有执行。尽管添加

从 Oozie 运行它时我缺少什么?

0 投票
0 回答
189 浏览

oozie - 在父工作流的不同时间安排 oozie 子工作流

我有一个包含 4 个子工作流的 Oozie 工作流。我需要以这样的方式配置 oozie

  1. 父工作流每 4 小时运行一次
  2. 子工作流 1 和子工作流 2 每 4 小时运行一次。
  3. 子工作流程 3 应仅每 12 小时运行一次。
  4. 子工作流程 4 应该每天只运行一次

我无法找到任何具有 oozie 协调器或工作流的属性,这些属性可以帮助我如上所述安排我的工作流。想知道实现相同目标的最佳方法是什么?

0 投票
1 回答
377 浏览

oozie - 如何通过共享共同的 job.properties 来触发具有不同时间表的多个 Oozie 协调器

我有一个问题,我需要提交多个协调员(大约 10 个),每个协调员都有不同的时间表,并且每个都没有依赖关系(例如:每 2 小时、12 小时等一个)。我看到有一个限制,我们应该将协调器完全命名为 coordinator.xml 而不带前缀或后缀(这样我就无法区分)。我不想让我的代码复制 10 次(为每个协调员维护文件夹)来处理这个问题。 具有多个协调器的示例文件夹

有没有人有类似的用例?如果您对此分享您的想法,那将非常有帮助谢谢!

0 投票
1 回答
107 浏览

apache-spark - 我可以在不使用 oozie 的情况下独立运行 spark 吗?

我已经安装了 oozie 并且可以在 oozie 工作流程上运行 spark 作业?我可以在不直接使用 oozie 的情况下独立于 oozie bundle 中的 spark 库运行 spark。我该怎么做?请举例说明。

0 投票
1 回答
320 浏览

java - 将文件从 HDFS 放入 S3 存储桶时访问被拒绝

我编写了一个 Java 程序,它包含在 oozie 工作流程中,它将文件从 HDFS 放到 S3 存储桶中。但是,我收到以下错误

com.amazonaws.services.s3.model.AmazonS3Exception:访问被拒绝(服务:Amazon S3;状态代码:403;错误代码:AccessDenied;请求 ID:310F08CD4FF8B5D9),S3 扩展请求 ID:fAysD1vgtriV8x+sf1zqHk58eAT89Y6HD+ziEokaPvFPKwaPrHDxt5yygsiA1Qn+

我在 oozie 工作流中动态创建 S3 存储桶中的关键路径。
例如:如果我的文件名是,abc_20171009.tsv.gz那么这个文件应该上传到以下路径中的存储桶

以类似的方式,应根据日期上传其他日期文件。
我的问题是在上传文件之前密钥路径是否应该预先存在于存储桶中,还是可以动态创建?

注意:我可以手动放置文件并通过 AWS CLI 连接到 S3 存储桶。

0 投票
1 回答
556 浏览

hadoop - oozie 工作流程的最大限制

有没有人知道可以并行执行的 oozie 工作流的最大限制是多少?

我正在并行运行 35 个工作流(或者这就是 oozie UI 提到的,它们都是并行启动的)。所有子工作流都执行从本地到 HDFS 的文件摄取,并在此后对文件的元数据进行一些验证检查。就那么简单。

但是,我看到一些子工作流在执行过程中失败了;他们失败的步骤尝试将文件放入 HDFS 位置,即进程无法执行hdfs dfs -put命令。但是,当我重新运行这些子工作流时,它们会成功运行。

不知道是什么导致他们执行和失败hdfs dfs -put

关于可能发生的事情的任何线索/建议?

0 投票
1 回答
113 浏览

hadoop - 在 Oozie 编辑器中查询不更新数据

我正在使用 Oozie 编辑器 (HUE),在其中创建了一个包含 HiveServer2 脚本的工作流,该脚本运行 SQL 查询以在 Hive DB 中创建表。

Oozie 编辑器

查询是:-

它运行成功,但我在dbname数据库中看不到任何表名table1 。

我错过了什么吗?

0 投票
1 回答
380 浏览

hive - 如何在 Hive 中获取查询输出?

我从 Oozie 工作流运行查询:

查询成功执行,但在日志中我看不到选择查询的输出。

查询输出