问题标签 [apache-crunch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
198 浏览

apache-crunch - 如何在 apache crunch 中使用计数器

在 Apache Crunch 中,有一个名为increment("any enum").

我使用increment(TOTAL_IDS);了,但是在我可以看到计数器结果的地方,计数器在完成工作后没有进入日志。

我在那里想念什么?

0 投票
1 回答
340 浏览

apache-crunch - 在紧缩中迭代 PTable

我有以下 PTables,

对于上面描述的 somePTable2,我想为 somePTable2 中的每条记录创建一个新文件,有没有办法迭代 somePTable2 以便我可以访问记录。我知道我可以在 somePTable2 上应用 DoFn,但是是否可以应用DoFn 中的 pipeline.write() 操作?

0 投票
0 回答
969 浏览

java - org.apache.crunch.CrunchRuntimeException:java.io.NotSerializableException

我有一个PTable<String, Pair<Entity1, Entity2>>在我正在运行转换作业的程序的中间阶段生成的。 示例 PTable 条目:

我需要找到一个PCollection<String> 地方Entity2 is null

变压器自由度

Entity1 和 Entity2 都是从 Avro 模式生成的类。

但是当我运行作业时,它会引发运行时异常

我试过 Writables.strings() 但它给出了同样的例外。

作业中使用的 PTable 具有 Entity2 等于 null 的条目。

我尝试以多种方式转换 PTable,但它不起作用。我无法弄清楚其背后的主要原因。

当我使用

它抛出下面提到的异常:

0 投票
1 回答
170 浏览

apache-crunch - 如何在具有“void”数据类型的 apache crunch 中定义 DoFn?

基本上,我不需要 DoFn 的输出,只想为我在 DoFn 中获得的每条记录更新一些 mysql 数据库。那么如何定义具有 void 数据类型的 DoFn 呢?基本上我不想从 DoFn 发出任何东西。

0 投票
2 回答
1052 浏览

maven - 尝试从 IntelliJ 运行项目时找不到或加载主类

我已经下载了项目

然后将其作为 Maven 现有项目导入 IntelliJ。现在我正在尝试运行main功能,但失败并显示错误消息

它是什么以及如何解决?

更新

如果我从头开始创建新的 Hello World Maven 项目,那么它可以工作。

更新 2

如果我参加任何HelloWorld课程extends Configured implements Tool,它也会停止工作:

更新 3

我需要从 IntelliJ 的角度进行解释:仅仅因为某些类扩展,它如何失去在类路径中查找某些名称的能力?

0 投票
1 回答
73 浏览

java - 如何在没有 Hadoop 的情况下运行 Apache Crunch 应用程序?

我听说 Apache Crunch 是一个门面,它可以在没有 Hadoop 的情况下运行应用程序。这是真的?

如果是,那么该怎么做?

Apache Crunch Getting Started中,第一个示例包括 hadoop 命令:

可以省略hadoop吗?

0 投票
1 回答
202 浏览

hadoop - 当调用 Apache Crunch 管道在两个不同的源上读取两次时会发生什么?

拨打以下电话时:

根据 Apache Crunch 阅读文档,是否使用同一管道从两个源中读取数据,然后将数据连接在一起?

0 投票
0 回答
24 浏览

hadoop - 大量单元格时停止扫描仪超时

我有一项繁重的工作,其中一个单元格可以包含数十万个单元格(数据分为按位置+时间键控的行。对于某些位置和时间,可能有很多单元格)。该作业处理每个单元格,但是当单元格数量非常大时,我会遇到扫描仪超时。

我可以增加超时,例如 hbase.client.scanner.timeout.period,但它们必须是巨大的值(因为单个单元格可能需要 200 毫秒的小时数),这似乎并不理想。

我以为我可以使用 scan.setAllowPartialResults() 和 scan.setMaxResultSize(),但这只有在 scan.getFilter().hasFilterRow() 为 false 时才有效,在我的情况下它不是。我还看到了scanner.setMaxNumRows(),但是我看不到任何从crunch 到scanner 的方法。

我可以将所有数据写到一个临时位置,然后在 reduce 中处理它,但这似乎是错误的。我觉得我一定错过了应该如何做的一些事情。

一个紧缩的工作应该如何处理它必须处理大量单元而不超时的情况?谢谢。

0 投票
1 回答
67 浏览

mapreduce - Apache Crunch:如何设置多个输入路径?

我有一个问题:我在使用 Apache Crunch 时无法设置多个输入路径。我怎么解决这个问题?

0 投票
0 回答
45 浏览

java - 将 hive collect_set 查询迁移到 apache crunch

如何编写与此配置单元查询等效的 apache crunch 作业

select A, collect_set(B) as C from table group by A?