问题标签 [oozie]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3616 浏览

hadoop - 我可以提交具有多个配置文件的 oozie 作业吗?

从 Oozie CLI 我想做这样的事情:

我正在运行许多不同的作业,其中 .properties 文件的一部分是相同的。我希望能够将该重复部分移动到单个 baseConfig.properties 文件中,并在我提交作业时将其与作业特定部分结合起来。

0 投票
3 回答
10865 浏览

oozie - oozie 时区设置

我是 oozie 的新手,在更改 oozie 默认时区时遇到问题。我正在编写 oozie 协调员工作,并尝试指定时区,例如

正如这里解释的那样http://oozie.apache.org/docs/3.2.0-incubating/CoordinatorFunctionalSpec.html#a4._Datetime_Frequency_and_Time-Period_Representation 但它不起作用。谁能告诉我哪里出错了?

其次,我想在 oozie 工作流程开始时获取日期时间。假设我想在过去的某个日期运行协调员工作,比如一周前,该工作以 15 分钟的频率运行了一整天。我想要的是在工作流程开始时有日期时间。

非常感谢您宝贵的时间

0 投票
2 回答
363 浏览

java - 异步猪作业提交

我在 Java 中动态生成一些 Pig 查询并使用 PigServer 类执行相同的查询。有什么方法可以异步提交作业,然后轮询/挂钩以完成作业?另外,如果 pig 不允许,我可以使用 Oozie 和 Java Action 来实现所需的行为。

0 投票
1 回答
1616 浏览

apache-pig - 使用 JAR 作为 UDF 运行 Pig 返回错误 101

我是 Pig 和 Oozie 的新手,所以这可能是一个初学者的问题,但我到处寻找答案,但没有运气......我正在尝试在 Pig 上运行 UDF,UDF 是一个带有 eval 的 JAR方法重载(取自http://wiki.apache.org/pig/UDFManual):

而 Pig 脚本是:

在本地(pig -f script.pig.txt)上运行它时,我收到了想要的结果,但是在 Oozie(oozie job -oozie http://localhost:11000/oozie -config job.properties -run)上运行它时,我收到以下错误: 错误 101:本地文件“myudfs.jar”确实不存在。

你会建议我做什么?

提前致谢 :)

0 投票
1 回答
4088 浏览

hadoop - 无法连接到 oozie 服务器(错误代码:500)

我试图使用 Java API 运行 oozie 工作流。但是在提交作业时,它给了我一个错误代码 500。请参阅下面的堆栈跟踪。

我使用的代码是:

我使用的hadoop生态系统是:Cloudera Distribution for Hadoop v4.1.2

任何帮助是极大的赞赏!

谢谢,阿伦

0 投票
2 回答
893 浏览

hadoop - 确认 oozie 使用 java action 运行的 Java 代码是否仅在单个节点上运行

我正在使用 oozie 运行工作流程。它有一个运行任意(非 map reduce)代码的 java 操作。此 java 代码用于在本地文件系统上创建文件和文件夹。我想确保 java 操作在 hadoop 集群的单个节点上运行(我的是 7 个节点)。对我来说,最好是这个 java 操作总是在同一台机器上运行,最好只在 hadoop 主节点上运行。是否可以?即使有解决方法也请分享。

0 投票
3 回答
20093 浏览

python - DAG(有向无环图)动态作业调度器

我需要管理 ETL 任务的大型工作流,​​其执行取决于时间、数据可用性或外部事件。某些作业在工作流执行期间可能会失败,系统应该能够重新启动失败的工作流分支,而无需等待整个工作流完成执行。

python中是否有任何框架可以处理这个问题?

我看到了几个核心功能:

  • 有向无环图
  • 执行节点(运行 shell cmd 并等待、记录等)
  • 能够在执行期间在父 DAG 中重建子图
  • 能够在父图运行时手动执行节点或子图
  • 在等待外部事件时暂停图形执行
  • 列出作业队列和作业详细信息

类似Oozie的东西,但更通用,在 python 中。

0 投票
1 回答
545 浏览

hadoop - 实施高级作业控制框架来帮助链接多个 Map-Reduce 作业意味着什么?

我对 Hadoop 很陌生,目前我被分配了一个项目

“实施一个高级作业控制框架来帮助链接多个 Map-Reduce 作业,即调查/改进现有的 org.apache.hadoop.mapred.jobcontrol 包。”

该项目列在http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects上 Random Ideas 下的项目建议页面上

我的困惑是,我是否必须构建 Oozie 的高级版本(我认为这是一个链接多个作业的作业控制框架)或类似的东西,或者这是否意味着完全不同的东西。

我错过了什么?

0 投票
1 回答
1127 浏览

hadoop - oozie 是否应该安装在单个 hadoop 集群内的所有 hadoop 节点上?

我在 hadoop 1.0.3 上运行 oozie。我想知道是否必须在单个集群内的所有 hadoop 节点上安装 oozie?仅将它安装在主节点(hadoop)上就足够了吗?我搜索了 oozie 文档,但找不到我的问题的答案。

谢谢你,莫辛。

0 投票
1 回答
842 浏览

hadoop - 如何创建 oozie.war?

我正在使用oozie-3.3.0.在此我无法oozie.war${OOZIE_HOME}目录中找到。当我执行这个命令

我找不到 oozie.war。

如何创建 oozie.war?