问题标签 [apache-crunch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

51 问题

0 投票

1 回答

198 浏览

apache-crunch - 如何在 apache crunch 中使用计数器

在 Apache Crunch 中，有一个名为increment("any enum").

我使用increment(TOTAL_IDS);了，但是在我可以看到计数器结果的地方，计数器在完成工作后没有进入日志。

我在那里想念什么？

apache-crunch

2017-08-15T13:46:06.153

0 投票

1 回答

340 浏览

apache-crunch - 在紧缩中迭代 PTable

我有以下 PTables，

对于上面描述的 somePTable2，我想为 somePTable2 中的每条记录创建一个新文件，有没有办法迭代 somePTable2 以便我可以访问记录。我知道我可以在 somePTable2 上应用 DoFn，但是是否可以应用DoFn 中的 pipeline.write() 操作？

apache-crunch

2017-08-17T14:21:27.577

0 投票

0 回答

969 浏览

java - org.apache.crunch.CrunchRuntimeException：java.io.NotSerializableException

我有一个PTable<String, Pair<Entity1, Entity2>>在我正在运行转换作业的程序的中间阶段生成的。 示例 PTable 条目：

我需要找到一个PCollection<String> 地方Entity2 is null

变压器自由度

Entity1 和 Entity2 都是从 Avro 模式生成的类。

但是当我运行作业时，它会引发运行时异常

我试过 Writables.strings() 但它给出了同样的例外。

作业中使用的 PTable 具有 Entity2 等于 null 的条目。

我尝试以多种方式转换 PTable，但它不起作用。我无法弄清楚其背后的主要原因。

当我使用

它抛出下面提到的异常：

2017-09-09T05:23:34.100

0 投票

1 回答

170 浏览

apache-crunch - 如何在具有“void”数据类型的 apache crunch 中定义 DoFn？

基本上，我不需要 DoFn 的输出，只想为我在 DoFn 中获得的每条记录更新一些 mysql 数据库。那么如何定义具有 void 数据类型的 DoFn 呢？基本上我不想从 DoFn 发出任何东西。

apache-crunch

2017-09-23T13:10:40.203

0 投票

2 回答

1052 浏览

maven - 尝试从 IntelliJ 运行项目时找不到或加载主类

我已经下载了项目

然后将其作为 Maven 现有项目导入 IntelliJ。现在我正在尝试运行main功能，但失败并显示错误消息

它是什么以及如何解决？

更新

如果我从头开始创建新的 Hello World Maven 项目，那么它可以工作。

更新 2

如果我参加任何HelloWorld课程extends Configured implements Tool，它也会停止工作：

更新 3

我需要从 IntelliJ 的角度进行解释：仅仅因为某些类扩展，它如何失去在类路径中查找某些名称的能力？

maven intellij-idea classpath apache-crunch

2018-05-23T09:58:54.250

0 投票

1 回答

73 浏览

java - 如何在没有 Hadoop 的情况下运行 Apache Crunch 应用程序？

我听说 Apache Crunch 是一个门面，它可以在没有 Hadoop 的情况下运行应用程序。这是真的？

如果是，那么该怎么做？

在Apache Crunch Getting Started中，第一个示例包括 hadoop 命令：

可以省略hadoop吗？

java hadoop apache-crunch

2018-05-23T10:28:48.930

0 投票

1 回答

202 浏览

hadoop - 当调用 Apache Crunch 管道在两个不同的源上读取两次时会发生什么？

拨打以下电话时：

根据 Apache Crunch 阅读文档，是否使用同一管道从两个源中读取数据，然后将数据连接在一起？

hadoop pipeline apache-crunch

2018-05-24T06:49:34.453

0 投票

0 回答

24 浏览

hadoop - 大量单元格时停止扫描仪超时

我有一项繁重的工作，其中一个单元格可以包含数十万个单元格（数据分为按位置+时间键控的行。对于某些位置和时间，可能有很多单元格）。该作业处理每个单元格，但是当单元格数量非常大时，我会遇到扫描仪超时。

我可以增加超时，例如 hbase.client.scanner.timeout.period，但它们必须是巨大的值（因为单个单元格可能需要 200 毫秒的小时数），这似乎并不理想。

我以为我可以使用 scan.setAllowPartialResults() 和 scan.setMaxResultSize()，但这只有在 scan.getFilter().hasFilterRow() 为 false 时才有效，在我的情况下它不是。我还看到了scanner.setMaxNumRows()，但是我看不到任何从crunch 到scanner 的方法。

我可以将所有数据写到一个临时位置，然后在 reduce 中处理它，但这似乎是错误的。我觉得我一定错过了应该如何做的一些事情。

一个紧缩的工作应该如何处理它必须处理大量单元而不超时的情况？谢谢。

hadoop hbase bigdata apache-crunch

2018-06-21T14:15:45.303

0 投票

1 回答

67 浏览

mapreduce - Apache Crunch：如何设置多个输入路径？

我有一个问题：我在使用 Apache Crunch 时无法设置多个输入路径。我怎么解决这个问题？

mapreduce hadoop2 apache-crunch

2018-07-11T03:47:01.523

0 投票

0 回答

45 浏览

java - 将 hive collect_set 查询迁移到 apache crunch

如何编写与此配置单元查询等效的 apache crunch 作业

select A, collect_set(B) as C from table group by A?

java hadoop mapreduce bigdata apache-crunch

2018-08-20T07:05:27.867

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-crunch]

Reference