问题标签 [apache-crunch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
45 浏览

java - 使用枚举,错误:org.apache.crunch.CrunchRuntimeException:java.lang.NoSuchMethodException:

当我在 crunch parallelDo( Avros.reflects(TestEnumType.class)) 映射函数中使用自定义枚举时,我收到以下错误。

一旦我将枚举更改为类,Avro 序列化就可以正常工作。在枚举和类中,我没有参数构造函数,并且类被声明为静态的。如何使用Avros.reflects方法序列化枚举?

不起作用的枚举:

在将相同的枚举表示给它的类之后:

0 投票
1 回答
322 浏览

java - Apache Crunch 无法写入输出

可能是疏忽,但我无法发现为什么 Apache Crunch 不会将输出写入文件,因为我正在编写一个非常简单的程序来学习 Crunch ..

这是代码:

这是我使用 hadoop 执行此 jar 时看到的日志记录:

输入文件非常简单,如下所示:

尽管日志记录表明输出位置应该发生了写入,但我没有看到任何文件正在创建。有什么想法吗?

0 投票
1 回答
174 浏览

java - Hadoop java.lang.RuntimeException:java.lang.NoSuchMethodException

我正在使用 Apache Crunch 编写一些 map-reduce 代码。我有以下类,其中包含一些在 map-reduce 代码中传递的数据,但我得到一个异常 - 不知道为什么。

这是类接口

这是类实现本身..(我这里有一个默认的空构造函数..)

这是我在地图阶段遇到的异常..

0 投票
2 回答
1288 浏览

hadoop - 如何在 Oozie 中执行一项特定的工作流操作。如果我手动杀死了 Oozie 工作流程?

我有以下 Oozie 工作流程,假设我在执行操作“Do_task1”时手动终止了该作业,但我仍然想执行操作“Do_task2”,尽管手动终止了 oozie 作业(当操作“Do_task1”正在运行时)。我怎样才能做到这一点?

0 投票
1 回答
1147 浏览

java - 由 GSSException 引起:未提供有效凭据(机制级别:未能找到任何 Kerberos tgt)

*在运行 apache crunch mapreduce pipleline 时,应在 kerebros 中提供哪些凭据以解决此异常?通过 kinit 命令登录后没有区别。*

日志如下:

0 投票
0 回答
67 浏览

java - 在 DoFn(apache crunch) 中传递一个映射(或并发哈希映射)

由于 Hadoop 计数器大小有限制(我们不想只为一项工作增加它),我正在创建一个映射(Map),如果满足某些条件(与计数器相同),它将增加键。已经有一个 DoFn(返回自定义对象)正在处理数据,所以我有兴趣将地图传递到其中并根据键将其分组到外部。我认为 concurrenthashmap 可能有效,但无法实现。

0 投票
0 回答
63 浏览

java - 测试 DoFn Apache Crunch

我对 Apache Crunch 很陌生。这是我写的第一个测试用例。目前我正在为 DoFn 编写测试用例,但它显示 NullPointerException。

0 投票
1 回答
40 浏览

apache-crunch - 将 apache crunch Pcollection 写入多个输出文件

我有一个紧缩的 dofn 生成一个 Pcollection,当前我将 pcollection 写入单个 avro 文件我想将 Pcollection 写入多个文件。

0 投票
1 回答
31 浏览

amazon-s3 - 如何将 Apache Crunch 的输出写入 Amazon S3 存储桶

有没有一种方法可以将我们的 Apache Crunch 输出写入 S3 存储桶。在 crunch pipeline write 中有一个方法,它以 Target 作为参数。有没有办法将 S3 添加为目标来编写 crunch 方法。

0 投票
0 回答
29 浏览

java - Apache Crunch 可以用来创建类似 Graph 的数据结构吗?

我有两个PCollectionEdge 和 Node。我需要将结构转换为可以促进平滑遍历的图形。是否有任何 Apache Crunch 方法或类可用于创建这样的结构?

数据很大,所以我无法将其作为Collection. 此外,不幸的是,我不能使用任何其他专门用于图形处理的框架。