问题标签 [oozie-workflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 将变量传递给 oozie 案例部分不起作用
我有一个 oozie 动作,它具有以下节点。
工作节点::
当我尝试使用 job.properties 中的可变值参数化使用的路径时,它不起作用。
我得到以下错误。
EL_ERROR 索引 0 处路径中的非法字符:{bucket_name}/data/processor_controller/outbound/raw_events
maven - 在 hadoop 2.7.3 上安装 oozie 4.3.0 错误
当我尝试创建 oozie 发行版时,我正在尝试在 hadoop 2.7.3 上安装 oozie 4.3.0。它因以下错误消息而失败。
还要检查正确提到的 setting.xml 代理标签,但无法弄清楚问题所在。
mapreduce - 自定义分区器在 Oozie Mapreduce 操作中不起作用
我已经在 mapreduce 中实现了二级排序,并尝试使用 Oozie(来自 Hue)来执行它。
虽然我在属性中设置了分区器类,但分区器并没有被执行。所以,我没有得到预期的输出。
使用 hadoop 命令运行相同的代码时运行良好。
这是我的 workflow.xml
使用 hadoop jar 命令运行时,我使用 JobConf.setPartitionerClass API 设置分区器类。
不知道为什么我的分区器在使用 Oozie 运行时没有执行。尽管添加
从 Oozie 运行它时我缺少什么?
oozie - 在父工作流的不同时间安排 oozie 子工作流
我有一个包含 4 个子工作流的 Oozie 工作流。我需要以这样的方式配置 oozie
- 父工作流每 4 小时运行一次
- 子工作流 1 和子工作流 2 每 4 小时运行一次。
- 子工作流程 3 应仅每 12 小时运行一次。
- 子工作流程 4 应该每天只运行一次
我无法找到任何具有 oozie 协调器或工作流的属性,这些属性可以帮助我如上所述安排我的工作流。想知道实现相同目标的最佳方法是什么?
oozie - 如何通过共享共同的 job.properties 来触发具有不同时间表的多个 Oozie 协调器
我有一个问题,我需要提交多个协调员(大约 10 个),每个协调员都有不同的时间表,并且每个都没有依赖关系(例如:每 2 小时、12 小时等一个)。我看到有一个限制,我们应该将协调器完全命名为 coordinator.xml 而不带前缀或后缀(这样我就无法区分)。我不想让我的代码复制 10 次(为每个协调员维护文件夹)来处理这个问题。 具有多个协调器的示例文件夹
有没有人有类似的用例?如果您对此分享您的想法,那将非常有帮助谢谢!
apache-spark - 我可以在不使用 oozie 的情况下独立运行 spark 吗?
我已经安装了 oozie 并且可以在 oozie 工作流程上运行 spark 作业?我可以在不直接使用 oozie 的情况下独立于 oozie bundle 中的 spark 库运行 spark。我该怎么做?请举例说明。
java - 将文件从 HDFS 放入 S3 存储桶时访问被拒绝
我编写了一个 Java 程序,它包含在 oozie 工作流程中,它将文件从 HDFS 放到 S3 存储桶中。但是,我收到以下错误
com.amazonaws.services.s3.model.AmazonS3Exception:访问被拒绝(服务:Amazon S3;状态代码:403;错误代码:AccessDenied;请求 ID:310F08CD4FF8B5D9),S3 扩展请求 ID:fAysD1vgtriV8x+sf1zqHk58eAT89Y6HD+ziEokaPvFPKwaPrHDxt5yygsiA1Qn+
我在 oozie 工作流中动态创建 S3 存储桶中的关键路径。
例如:如果我的文件名是,abc_20171009.tsv.gz
那么这个文件应该上传到以下路径中的存储桶
以类似的方式,应根据日期上传其他日期文件。
我的问题是在上传文件之前密钥路径是否应该预先存在于存储桶中,还是可以动态创建?
注意:我可以手动放置文件并通过 AWS CLI 连接到 S3 存储桶。
hadoop - oozie 工作流程的最大限制
有没有人知道可以并行执行的 oozie 工作流的最大限制是多少?
我正在并行运行 35 个工作流(或者这就是 oozie UI 提到的,它们都是并行启动的)。所有子工作流都执行从本地到 HDFS 的文件摄取,并在此后对文件的元数据进行一些验证检查。就那么简单。
但是,我看到一些子工作流在执行过程中失败了;他们失败的步骤尝试将文件放入 HDFS 位置,即进程无法执行hdfs dfs -put
命令。但是,当我重新运行这些子工作流时,它们会成功运行。
不知道是什么导致他们执行和失败hdfs dfs -put
。
关于可能发生的事情的任何线索/建议?
hadoop - 在 Oozie 编辑器中查询不更新数据
我正在使用 Oozie 编辑器 (HUE),在其中创建了一个包含 HiveServer2 脚本的工作流,该脚本运行 SQL 查询以在 Hive DB 中创建表。
查询是:-
它运行成功,但我在dbname数据库中看不到任何表名table1 。
我错过了什么吗?