问题标签 [apache-crunch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
373 浏览

logging - Crunch 调试日志

任何使用过 Crunch 管道的人都知道,在调用pipeline.run()orpipeline.done()方法之前实际上什么都不会执行。传统上,在大多数语言中,我们可以使用日志语句来打印出中间变量值,但是对于 Crunch,这是不可能的,因为管道行为。有没有办法/解决方法?

谢谢。

0 投票
1 回答
89 浏览

java - Apache Crunch 是否带有 Hadoop MapReduce API?

当您从他们的网站下载 Apache Crunch(它作为源代码提供)时,它没有它所基于的相关 MapReduce 类。两个问题:

1-这怎么可能?Apache Crunch 是 MapReduce 之上的抽象。为什么它没有与 MapReduce 类一起打包?

2- 使用 Apache Crunch 进行开发需要做什么?我需要分别下载 Crunch 和 MapReduce 吗?如果是这样,我怎么知道我需要哪个 MapReduce 版本来匹配 Crunch 版本?

0 投票
1 回答
590 浏览

hadoop - 如何在 Apache Crunch 中进行 Map 端完全外连接(MapsideJoinStrategy 不支持连接类型 FULL_OUTER_JOIN)

嗨,我正在尝试使用 MapsideJoinStrategy 类在 crunch 中加入 mapside。内部联接工作正常,但完全外部联接出现此错误:“MapsideJoinStrategy 不支持联接类型 FULL_OUTER_JOIN”

0 投票
1 回答
388 浏览

java - Apache Crunch 管道如何生成 map reduce 作业?

我是像 Crunch/Cascading 这样的 hadoop 管道框架的新手。我想知道在这些框架的底部,它们是否会生成原始的映射器和减速器类,就像原始的 MapReduce 程序一样?从 Crunch 源代码中,我没有找到将管道转换为原始 MapReduce 类的代码。

0 投票
1 回答
4988 浏览

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行关键作业的应用程序。我正在尝试配置 Oozie 以使用 java 操作运行此作业。我的操作如下所示,

但是每次我运行 Oozie 工作时,我的工作都会抛出

我已将队列配置为启动器,但 oozie 只是不使用此属性。

请注意,我正在运行只是内部地图缩减作业的紧缩作业。

0 投票
0 回答
217 浏览

scala - Scrunch 与 Crunch 中的可写类型族解析

我有一个 Scrunch Spark 管道,当我尝试使用以下命令将其输出保存为 Avro 格式时:

我得到以下异常:

而这反而工作得很好:

(在这两种情况下都是一个字符串data同一个实例)PCollectionpath

我理解为什么会发生这个错误,PCollection我试图写的属于Writable类型家族而不是那个Avro。我不清楚的是如何在 Scrunch 中决定我的 PCollection 属于一个而不是另一个。

然而,这种机制在 Crunch 中似乎更加清晰。根据官方 Crunch 文档

Crunch 支持两种不同的类型族,它们都实现了 PTypeFamily 接口:一种用于 Hadoop 的 Writable 接口,另一种基于 Apache Avro。还有一些类包含每个 PTypeFamily 的静态工厂方法,以便于导入和使用:一个用于 Writables,一个用于 Avros。

接着:

对于您的大多数管道,您将只使用一个类型系列,因此您可以通过将 Writables 或 Avros 类中的所有方法导入您的类来减少类中的一些样板文件

导入静态 org.apache.crunch.types.avro.Avros.*;

事实上,在官方 repo 中为 Crunch 提供的示例中,可以看出这是如何明确表达的。请参阅WordCount示例中的以下代码片段:

虽然等效的Scrunch 版本是这样的:

}

并且没有提供明确的或据我所见的隐式引用WritableFamily

那么 Scrunch 是如何决定使用什么 Writable family 类型的呢?它是基于原始输入源的默认值吗?(例如,如果从文本文件读取,它是可写的,如果从 Avro 然后是 Avro)如果是这种情况,那么我如何更改类型以从一个源读取并写入目标 taht 在 Scrunch 中属于不同的系列类型?

0 投票
1 回答
105 浏览

mapreduce - 哪个工作图减少可以做,但 apache crunch 不能?

我正在研究 apache crunch。据我所知,crunch 是一个基于 map-reduce 框架的抽象框架。我打算使用 crunch 而不是 map-reduce 框架。

我的问题是 map-reduce 可以做哪些工作,而 crunch 不能?

0 投票
1 回答
56 浏览

hadoop - 如何将现有的 MapReduce 应用程序转换为 Crunch?

我实现了几个(大约十几个)MapReduce 任务,每个任务都作为由简单 bash 脚本执行的工作流的一部分。出于多种原因,我想将工作流移至 Apache Crunch。

但是,我不清楚如何在不重新实现它们的情况下将我的 MapReduce 任务作为 Crunch 函数运行。有没有一种直接的方法可以将 Map 和 Reduce 实现用作 Crunch 函数?我还想维护工具实现,以便 MapReduce 任务既可以独立运行,也可以作为 Crunch 工作流的一部分运行;有什么办法吗?

感谢您的任何见解。

0 投票
0 回答
69 浏览

hadoop - Crunch SparkPipeline 无法按预期工作

我正在尝试将我们的代码从 Crunch MRPipeline 迁移到 SparkPipeline。我尝试了一个像这样的简单示例

我的输入文件就像 file1: hello world hello hadoop file2: hello spark

运行spark程序后,输出结果总是

实际上,hello的计数应该是3

那是 Crunch 'count' 功能错误?

0 投票
1 回答
877 浏览

hadoop - Hadoop 作业:注入构造函数时出错,JAXBException

在 Apache Crunch 管道中实现的 MapReduce 作业失败并显示错误消息Error injecting constructor, javax.xml.bind.JAXBException: property "retainReferenceToInfo" is not supported

Crunch 管道与其他功能性管道非常相似;有人对下面看到的错误有任何理论或直觉吗?

感谢您的任何帮助。

可以在下面找到应用程序日志的摘录: