问题标签 [oozie]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
34306 浏览

workflow - 停止 Oozie 工作流执行

昨天我开始了一个 oozie 工作流程。它开始了两个整天停滞不前的工作。我今天早上杀了他们,做了一个我现在想测试的改变。在杀死这两个工作之后,就像工作流程变得不顺畅,现在正在继续。我想终止工作流程,这样它就不会继续开始新的工作来取代我杀死的工作。我怎样才能在 oozie 命令行中做到这一点?

0 投票
1 回答
1088 浏览

hbase - 通过 oozie 连接到 HBase 时出现异常。

当我尝试通过 oozie 连接到 HBase 时,出现以下异常:

我的 workflow.xml 看起来像这样,

我可以使用hadoop jar命令运行 jar 文件,但不能使用 oozie。我在java中设置了所有必需的配置。但仍然得到异常。

HMasterHRegionServer正在运行。哪位知道的请帮帮我...

0 投票
1 回答
1411 浏览

java - oozie 抛出错误 java.lang.IncompatibleClassChangeError: 找到接口 org.apache.hadoop.mapreduce.Counter,但应使用类

我编写了一个 mapreduce 类,当我执行该 mapreduce 代码时,我在其中使用了一个计数器,我收到了这个错误

谁能建议我为什么会收到此错误?

0 投票
1 回答
793 浏览

hadoop - Oozie 协调器应用程序在开始和结束时间的差异超过一小时的情况下无法工作

我的 oozie 协调器应用程序出现问题。
案例 1:
For -
start = "2012-09-07 13:00Z" end ="2012-09-07 16:00Z" frequency ="coord:hour(1)"
动作数:1(预期为 3)
名义时间 -
1) 2012-09-07 13:00Z (预计还有两个。2012-09-07 14:00Z,2012-09-07 15:00Z)
案例 2 :
For -
start = "2012-09-07 13 :00Z" end ="2012-09-07 16:00Z" frequency = "coord:minutes(10)"
动作次数:6(预计为 18)
标称时间:
1)2012-09-07 13:00Z
2) 2012-09-07 13:10Z
3) 2012-09-07 13:20Z
4) 2012-09-07 13:
5) 2012-09-07 13:40Z
6) 2012-09-07 13:50Z (预计还有 12 个。2012-09-07 14:00Z,2012-09-07 14:10Z 等等..)。

基于观察的概括:从coord:minutes(1)coord:minutes(59)
的 任何频率,标称时间都可以完美计算,但只能到一小时。 如果我在这里遗漏任何东西,请提出建议。使用 oozie 2.0,尝试使用可以正常工作的基本协调器应用程序:start = "2012-09-07 13:00Z" end = "2012-09-07 13:30Z" frequency = "coord:minutes(10 )"

0 投票
1 回答
1653 浏览

hadoop - 从逗号分隔的绝对文件路径列表中加载数据

参考以下 hive 命令:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

我可以给出一个逗号分隔的绝对文件路径列表吗?
LOAD DATA INPATH 'hdfs://foo/bar1,hdfs://foo/bar2' INTO TABLE foo1

我正在寻找的实际用例:

使用时

在 co-ordinator.xml 中,假设有一组合格的 24 个 hdfs 位置作为我的输入。如果我的配置单元查询是将数据从所有这些位置加载到表中,我想像这样使用它: CREATE TABLE table1( col1 STRING )LOCATION (${input_files});

但是,这在蜂巢中无法正常工作。假设: input_files 解析为hdfs://foo/bar/1,hdfs://foo/bar/2,hdfs://foo/bar/3这不是蜂巢中的有效位置。

我理解实现这一点的唯一方法是运行一个 java 映射器,它将input_files作为输入并输出一个运行的动态配置单元脚本

分别地。

所以,最后,我的问题是,当我能够解决我感兴趣的整个数据集时,我可以将其用作${coord:dataIn('coordInput1')},我不能利用它来配置蜂巢,避免单独的个人LOAD DATA..ALTER TABLE ADD PARTITIONS..陈述吗?

0 投票
2 回答
1966 浏览

mapreduce - 如何通过 oozie 调度 Hbase Map-Reduce 作业?

我想通过 Oozie 安排 Hbase Map-Reduce 作业。我面临以下问题。

或者

please let me know the best way to schedule a Hbase Map-Reduce Job by Oozie .

谢谢 :) :)

0 投票
3 回答
13140 浏览

hadoop - 在 HDFS 上找不到 Oozie 作业配置应用程序目录

我在我的 Linux 机器上安装了 Cloudera 的伪分布式版本,并成功运行了一些简单的 MapReduce 示例。但是,我试图让 Oozie 工作,并且在尝试执行简单的工作流程时收到的错误完全让我感到困惑:

根据文档,将预打包的示例复制到 HDFS 并执行:

检查文件是否存在:

确实如此。我可以连接到 phocion:8020 吗?

我可以。所以,基本上,我完全不知道这个错误试图告诉我什么——这个文件夹确实存在。我假设错误太模糊,无法完全传达问题所在,但我几乎没有发现任何东西可以为我指明正确的方向。

我也可以用其他 3rd 方教程复制这个错误。

花了很多时间翻阅配置文件,以至于不想再看电脑了。也许我在这里过度思考这个问题,但任何帮助将不胜感激。

编辑:添加完整的 job.properties (与默认值没有太大不同):

更多编辑:当文件夹不存在时,我得到同样的错误,在我把 if 放回 hdfs 之后。最后的想法是它的权限问题, chmod 777 仍然得到同样的错误。命令行上传递的完整 HDFS 路径不能解决问题。在 oozie 甚至 root 帐户下运行它都不起作用:

这个命令理论上应该有效吗?

这会在执行 oozie 命令后显示在 hadoop-hdfs 日志中:

0 投票
1 回答
7260 浏览

hadoop - 如何在oozie中指定多个jar文件

我需要解决以下问题:我的项目有两个罐子,其中

一个 jar 包含所有 bean 类,如 Employee 等,另一个 jar 包含使用第一个 jar bean 类的 MR 作业,因此当我尝试将 MR 作业作为简单的 java 程序运行时,我面临找不到类的问题(com. abc.Employee 类未找到,因为它在另一个 jar 中)所以任何人都可以为我提供如何解决问题的解决方案....因为实时可能有很多 jars 不是 1 或 2 如何指定所有这些 jars 可以任何人请尽快回复。

0 投票
1 回答
5830 浏览

java - 使用 java 代码运行 oozie 工作流

我是 java 新手,在使用 java 代码运行 oozie 作业时遇到了一些麻烦。我无法找出代码中的问题。一些帮助将不胜感激。这是我的代码

虽然我可以使用命令行启动作业

0 投票
1 回答
397 浏览

java - 使用 java 代码启动 oozie 作业

我正在尝试使用 javacode 启动 oozie 作业,但无法执行相同操作。以下代码为几行提供了异常“未处理的类型 oozieClientException”,例如

我是java新手,正在寻求帮助。这是我的代码: