问题标签 [oozie]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 我可以提交具有多个配置文件的 oozie 作业吗?
从 Oozie CLI 我想做这样的事情:
我正在运行许多不同的作业,其中 .properties 文件的一部分是相同的。我希望能够将该重复部分移动到单个 baseConfig.properties 文件中,并在我提交作业时将其与作业特定部分结合起来。
oozie - oozie 时区设置
我是 oozie 的新手,在更改 oozie 默认时区时遇到问题。我正在编写 oozie 协调员工作,并尝试指定时区,例如
正如这里解释的那样http://oozie.apache.org/docs/3.2.0-incubating/CoordinatorFunctionalSpec.html#a4._Datetime_Frequency_and_Time-Period_Representation 但它不起作用。谁能告诉我哪里出错了?
其次,我想在 oozie 工作流程开始时获取日期时间。假设我想在过去的某个日期运行协调员工作,比如一周前,该工作以 15 分钟的频率运行了一整天。我想要的是在工作流程开始时有日期时间。
非常感谢您宝贵的时间
java - 异步猪作业提交
我在 Java 中动态生成一些 Pig 查询并使用 PigServer 类执行相同的查询。有什么方法可以异步提交作业,然后轮询/挂钩以完成作业?另外,如果 pig 不允许,我可以使用 Oozie 和 Java Action 来实现所需的行为。
apache-pig - 使用 JAR 作为 UDF 运行 Pig 返回错误 101
我是 Pig 和 Oozie 的新手,所以这可能是一个初学者的问题,但我到处寻找答案,但没有运气......我正在尝试在 Pig 上运行 UDF,UDF 是一个带有 eval 的 JAR方法重载(取自http://wiki.apache.org/pig/UDFManual):
而 Pig 脚本是:
在本地(pig -f script.pig.txt)上运行它时,我收到了想要的结果,但是在 Oozie(oozie job -oozie http://localhost:11000/oozie -config job.properties -run
)上运行它时,我收到以下错误:
错误 101:本地文件“myudfs.jar”确实不存在。
你会建议我做什么?
提前致谢 :)
hadoop - 无法连接到 oozie 服务器(错误代码:500)
我试图使用 Java API 运行 oozie 工作流。但是在提交作业时,它给了我一个错误代码 500。请参阅下面的堆栈跟踪。
我使用的代码是:
我使用的hadoop生态系统是:Cloudera Distribution for Hadoop v4.1.2
任何帮助是极大的赞赏!
谢谢,阿伦
hadoop - 确认 oozie 使用 java action 运行的 Java 代码是否仅在单个节点上运行
我正在使用 oozie 运行工作流程。它有一个运行任意(非 map reduce)代码的 java 操作。此 java 代码用于在本地文件系统上创建文件和文件夹。我想确保 java 操作在 hadoop 集群的单个节点上运行(我的是 7 个节点)。对我来说,最好是这个 java 操作总是在同一台机器上运行,最好只在 hadoop 主节点上运行。是否可以?即使有解决方法也请分享。
python - DAG(有向无环图)动态作业调度器
我需要管理 ETL 任务的大型工作流,其执行取决于时间、数据可用性或外部事件。某些作业在工作流执行期间可能会失败,系统应该能够重新启动失败的工作流分支,而无需等待整个工作流完成执行。
python中是否有任何框架可以处理这个问题?
我看到了几个核心功能:
- 有向无环图
- 执行节点(运行 shell cmd 并等待、记录等)
- 能够在执行期间在父 DAG 中重建子图
- 能够在父图运行时手动执行节点或子图
- 在等待外部事件时暂停图形执行
- 列出作业队列和作业详细信息
类似Oozie的东西,但更通用,在 python 中。
hadoop - 实施高级作业控制框架来帮助链接多个 Map-Reduce 作业意味着什么?
我对 Hadoop 很陌生,目前我被分配了一个项目
“实施一个高级作业控制框架来帮助链接多个 Map-Reduce 作业,即调查/改进现有的 org.apache.hadoop.mapred.jobcontrol 包。”
该项目列在http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects上 Random Ideas 下的项目建议页面上
我的困惑是,我是否必须构建 Oozie 的高级版本(我认为这是一个链接多个作业的作业控制框架)或类似的东西,或者这是否意味着完全不同的东西。
我错过了什么?
hadoop - oozie 是否应该安装在单个 hadoop 集群内的所有 hadoop 节点上?
我在 hadoop 1.0.3 上运行 oozie。我想知道是否必须在单个集群内的所有 hadoop 节点上安装 oozie?仅将它安装在主节点(hadoop)上就足够了吗?我搜索了 oozie 文档,但找不到我的问题的答案。
谢谢你,莫辛。
hadoop - 如何创建 oozie.war?
我正在使用oozie-3.3.0.
在此我无法oozie.war
在${OOZIE_HOME}
目录中找到。当我执行这个命令
我找不到 oozie.war。
如何创建 oozie.war?