问题标签 [apache-crunch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

51 问题

0 投票

2 回答

373 浏览

logging - Crunch 调试日志

任何使用过 Crunch 管道的人都知道，在调用pipeline.run()orpipeline.done()方法之前实际上什么都不会执行。传统上，在大多数语言中，我们可以使用日志语句来打印出中间变量值，但是对于 Crunch，这是不可能的，因为管道行为。有没有办法/解决方法？

谢谢。

logging apache-crunch

2015-05-14T15:57:03.450

0 投票

1 回答

89 浏览

java - Apache Crunch 是否带有 Hadoop MapReduce API？

当您从他们的网站下载 Apache Crunch（它作为源代码提供）时，它没有它所基于的相关 MapReduce 类。两个问题：

1-这怎么可能？Apache Crunch 是 MapReduce 之上的抽象。为什么它没有与 MapReduce 类一起打包？

2- 使用 Apache Crunch 进行开发需要做什么？我需要分别下载 Crunch 和 MapReduce 吗？如果是这样，我怎么知道我需要哪个 MapReduce 版本来匹配 Crunch 版本？

2015-07-02T21:45:22.053

0 投票

1 回答

590 浏览

hadoop - 如何在 Apache Crunch 中进行 Map 端完全外连接（MapsideJoinStrategy 不支持连接类型 FULL_OUTER_JOIN）

嗨，我正在尝试使用 MapsideJoinStrategy 类在 crunch 中加入 mapside。内部联接工作正常，但完全外部联接出现此错误：“MapsideJoinStrategy 不支持联接类型 FULL_OUTER_JOIN”

hadoop mapreduce apache-crunch

2015-08-20T06:31:05.467

0 投票

1 回答

388 浏览

java - Apache Crunch 管道如何生成 map reduce 作业？

我是像 Crunch/Cascading 这样的 hadoop 管道框架的新手。我想知道在这些框架的底部，它们是否会生成原始的映射器和减速器类，就像原始的 MapReduce 程序一样？从 Crunch 源代码中，我没有找到将管道转换为原始 MapReduce 类的代码。

java hadoop bigdata apache-crunch

2015-10-06T01:06:50.997

0 投票

1 回答

4988 浏览

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行关键作业的应用程序。我正在尝试配置 Oozie 以使用 java 操作运行此作业。我的操作如下所示，

但是每次我运行 Oozie 工作时，我的工作都会抛出

我已将队列配置为启动器，但 oozie 只是不使用此属性。

请注意，我正在运行只是内部地图缩减作业的紧缩作业。

java hadoop oozie oozie-coordinator apache-crunch

2015-11-06T07:42:59.510

0 投票

0 回答

217 浏览

scala - Scrunch 与 Crunch 中的可写类型族解析

我有一个 Scrunch Spark 管道，当我尝试使用以下命令将其输出保存为 Avro 格式时：

我得到以下异常：

而这反而工作得很好：

（在这两种情况下都是一个字符串data的同一个实例）PCollectionpath

我理解为什么会发生这个错误，PCollection我试图写的属于Writable类型家族而不是那个Avro。我不清楚的是如何在 Scrunch 中决定我的 PCollection 属于一个而不是另一个。

然而，这种机制在 Crunch 中似乎更加清晰。根据官方 Crunch 文档：

Crunch 支持两种不同的类型族，它们都实现了 PTypeFamily 接口：一种用于 Hadoop 的 Writable 接口，另一种基于 Apache Avro。还有一些类包含每个 PTypeFamily 的静态工厂方法，以便于导入和使用：一个用于 Writables，一个用于 Avros。

接着：

对于您的大多数管道，您将只使用一个类型系列，因此您可以通过将 Writables 或 Avros 类中的所有方法导入您的类来减少类中的一些样板文件

导入静态 org.apache.crunch.types.avro.Avros.*；

事实上，在官方 repo 中为 Crunch 提供的示例中，可以看出这是如何明确表达的。请参阅WordCount示例中的以下代码片段：

虽然等效的Scrunch 版本是这样的：

}

并且没有提供明确的或据我所见的隐式引用WritableFamily。

那么 Scrunch 是如何决定使用什么 Writable family 类型的呢？它是基于原始输入源的默认值吗？（例如，如果从文本文件读取，它是可写的，如果从 Avro 然后是 Avro）如果是这种情况，那么我如何更改类型以从一个源读取并写入目标 taht 在 Scrunch 中属于不同的系列类型?

scala apache-crunch

2015-12-09T18:25:45.710

0 投票

1 回答

105 浏览

mapreduce - 哪个工作图减少可以做，但 apache crunch 不能？

我正在研究 apache crunch。据我所知，crunch 是一个基于 map-reduce 框架的抽象框架。我打算使用 crunch 而不是 map-reduce 框架。

我的问题是 map-reduce 可以做哪些工作，而 crunch 不能？

mapreduce apache-crunch

2015-12-22T03:05:20.110

0 投票

1 回答

56 浏览

hadoop - 如何将现有的 MapReduce 应用程序转换为 Crunch？

我实现了几个（大约十几个）MapReduce 任务，每个任务都作为由简单 bash 脚本执行的工作流的一部分。出于多种原因，我想将工作流移至 Apache Crunch。

但是，我不清楚如何在不重新实现它们的情况下将我的 MapReduce 任务作为 Crunch 函数运行。有没有一种直接的方法可以将 Map 和 Reduce 实现用作 Crunch 函数？我还想维护工具实现，以便 MapReduce 任务既可以独立运行，也可以作为 Crunch 工作流的一部分运行；有什么办法吗？

感谢您的任何见解。

hadoop mapreduce apache-crunch

2016-01-20T23:03:21.490

0 投票

0 回答

69 浏览

hadoop - Crunch SparkPipeline 无法按预期工作

我正在尝试将我们的代码从 Crunch MRPipeline 迁移到 SparkPipeline。我尝试了一个像这样的简单示例

我的输入文件就像 file1: hello world hello hadoop file2: hello spark

运行spark程序后，输出结果总是

实际上，hello的计数应该是3

那是 Crunch 'count' 功能错误？

hadoop apache-spark apache-crunch

2016-02-05T07:29:10.303

0 投票

1 回答

877 浏览

hadoop - Hadoop 作业：注入构造函数时出错，JAXBException

在 Apache Crunch 管道中实现的 MapReduce 作业失败并显示错误消息Error injecting constructor, javax.xml.bind.JAXBException: property "retainReferenceToInfo" is not supported。

Crunch 管道与其他功能性管道非常相似；有人对下面看到的错误有任何理论或直觉吗？

感谢您的任何帮助。

可以在下面找到应用程序日志的摘录：

hadoop mapreduce jaxb guice apache-crunch

2016-02-16T19:30:05.173

1 2 3 4 5 6 7 8 9 10