问题标签 [apache-crunch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-crunch - 如何在 apache crunch 中使用计数器
在 Apache Crunch 中,有一个名为increment("any enum")
.
我使用increment(TOTAL_IDS);
了,但是在我可以看到计数器结果的地方,计数器在完成工作后没有进入日志。
我在那里想念什么?
apache-crunch - 在紧缩中迭代 PTable
我有以下 PTables,
对于上面描述的 somePTable2,我想为 somePTable2 中的每条记录创建一个新文件,有没有办法迭代 somePTable2 以便我可以访问记录。我知道我可以在 somePTable2 上应用 DoFn,但是是否可以应用DoFn 中的 pipeline.write() 操作?
java - org.apache.crunch.CrunchRuntimeException:java.io.NotSerializableException
我有一个PTable<String, Pair<Entity1, Entity2>>
在我正在运行转换作业的程序的中间阶段生成的。
示例 PTable 条目:
我需要找到一个PCollection<String>
地方Entity2 is null
变压器自由度
Entity1 和 Entity2 都是从 Avro 模式生成的类。
但是当我运行作业时,它会引发运行时异常
我试过 Writables.strings() 但它给出了同样的例外。
作业中使用的 PTable 具有 Entity2 等于 null 的条目。
我尝试以多种方式转换 PTable,但它不起作用。我无法弄清楚其背后的主要原因。
当我使用
它抛出下面提到的异常:
apache-crunch - 如何在具有“void”数据类型的 apache crunch 中定义 DoFn?
基本上,我不需要 DoFn 的输出,只想为我在 DoFn 中获得的每条记录更新一些 mysql 数据库。那么如何定义具有 void 数据类型的 DoFn 呢?基本上我不想从 DoFn 发出任何东西。
maven - 尝试从 IntelliJ 运行项目时找不到或加载主类
我已经下载了项目
然后将其作为 Maven 现有项目导入 IntelliJ。现在我正在尝试运行main
功能,但失败并显示错误消息
它是什么以及如何解决?
更新
如果我从头开始创建新的 Hello World Maven 项目,那么它可以工作。
更新 2
如果我参加任何HelloWorld
课程extends Configured implements Tool
,它也会停止工作:
更新 3
我需要从 IntelliJ 的角度进行解释:仅仅因为某些类扩展,它如何失去在类路径中查找某些名称的能力?
java - 如何在没有 Hadoop 的情况下运行 Apache Crunch 应用程序?
我听说 Apache Crunch 是一个门面,它可以在没有 Hadoop 的情况下运行应用程序。这是真的?
如果是,那么该怎么做?
在Apache Crunch Getting Started中,第一个示例包括 hadoop 命令:
可以省略hadoop
吗?
hadoop - 当调用 Apache Crunch 管道在两个不同的源上读取两次时会发生什么?
拨打以下电话时:
根据 Apache Crunch 阅读文档,是否使用同一管道从两个源中读取数据,然后将数据连接在一起?
hadoop - 大量单元格时停止扫描仪超时
我有一项繁重的工作,其中一个单元格可以包含数十万个单元格(数据分为按位置+时间键控的行。对于某些位置和时间,可能有很多单元格)。该作业处理每个单元格,但是当单元格数量非常大时,我会遇到扫描仪超时。
我可以增加超时,例如 hbase.client.scanner.timeout.period,但它们必须是巨大的值(因为单个单元格可能需要 200 毫秒的小时数),这似乎并不理想。
我以为我可以使用 scan.setAllowPartialResults() 和 scan.setMaxResultSize(),但这只有在 scan.getFilter().hasFilterRow() 为 false 时才有效,在我的情况下它不是。我还看到了scanner.setMaxNumRows(),但是我看不到任何从crunch 到scanner 的方法。
我可以将所有数据写到一个临时位置,然后在 reduce 中处理它,但这似乎是错误的。我觉得我一定错过了应该如何做的一些事情。
一个紧缩的工作应该如何处理它必须处理大量单元而不超时的情况?谢谢。
mapreduce - Apache Crunch:如何设置多个输入路径?
我有一个问题:我在使用 Apache Crunch 时无法设置多个输入路径。我怎么解决这个问题?
java - 将 hive collect_set 查询迁移到 apache crunch
如何编写与此配置单元查询等效的 apache crunch 作业
select A, collect_set(B) as C from table group by A
?