问题标签 [apache-crunch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
738 浏览

java - 如何追溯“()V" Avro 中的故障?

我正在使用 apache crunch,并从 Avro 收到一条神秘的错误消息:

“init()V”错误是什么意思?具体来说,我也想在紧缩中解决这个问题——它只在使用 Mapredce 管道选项进行作业时发生,但我没有看到它使用 MemPipeline 发生。

0 投票
0 回答
114 浏览

hadoop - Single Serialization Type (SST) of Pig/Cascading versus Multiple Serialization Type (MST) of Apache Crunch

In their FAQ here, Crunch teams highlights the main difference to be MST of Crunch over SST of Cascading. I am not sure how these are different. Can some one explain with an example?

0 投票
1 回答
63 浏览

mongodb - 使用 Crunch 将数据写入 MongoDB

我们将使用 Apache Crunch 来实现我们的新解决方案。我们想从 HBase 中提取数据,然后应用一些逻辑来过滤掉不合格的数据,最后以结构化的方式将数据写入 MongoDB 以进行进一步处理。这可行吗?关于如何使 Crunch 与 MongoDB 一起工作的任何想法?

0 投票
3 回答
5748 浏览

apache-pig - 将 Avro 转换为 Parquet 格式

我想从数据库中导出数据并转换为 Avro + Parquet 格式。Sqoop 支持 Avro 导出,但不支持 Parquet。我尝试使用 Apache Pig、Apache Crunch 等将 Avro 对象转换为 Parquet,但没有任何效果。

Apache pig 给了我“原因:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。

Apache Crunch 总是抛出:java.lang.ClassNotFoundException: Class org.apache.crunch.impl.mr.run.CrunchMapper not found”,尽管我将它添加到了 Hadoop 库路径中。

将数据从 DB 导出为 Parquet 格式的最佳且简单的方法是什么?

0 投票
2 回答
1378 浏览

java - 在 Apache Crunch 中,如何确定 PCollection 或 PTable 中是否包含任何元素?如果有,有多少?

我试图在监视窗口中放置一个断点并执行以下操作:检查 .getSize() 应该返回以字节为单位的大小。和 .materialize() 看看我是否可以查看 java 对象。

.getSize() 确实显示了一个 >0 的数字,但我怀疑这是否应该是 PTable 具有元素的指标。.materialize() 没有显示任何内容来表明元素的存在。

提前致谢。

0 投票
1 回答
482 浏览

hadoop - 如何将配置单元分区读入 Apache Crunch 管道?

我能够将 hdfs 中的文本文件读入 apache crunch 管道。但现在我需要读取配置单元分区。问题是根据我们的设计,我不应该直接访问该文件。因此,现在我需要某种方式来使用 HCatalog 之类的方式访问分区。

0 投票
1 回答
482 浏览

java - WordCount 与 Apache Crunch 进入 HBase Standalone

目前我正在评估 Apache Crunch。我遵循了一个简单的WordCount MapReduce 作业示例:之后我尝试将结果保存到独立的 HBase 中。HBase 正在运行(使用 jps 和 HBase shell 检查),如下所述:http: //hbase.apache.org/book/quickstart.html

现在我采用写入 HBase 的示例:

我得到一个异常:“异常:java.lang.illegalArgumentException:HBaseTarget 只支持放置和删除”

任何线索出了什么问题?

0 投票
2 回答
3326 浏览

hive - 为架构少的 avro 文件创建配置单元表

我有多个 avro 文件,每个文件中都有一个 STRING。每个 avro 文件都是一行。如何编写配置单元表以使用位于单个目录中的所有 avro 文件。每个文件都有一个很大的数字,因此我也没有任何我可以关联的 json 类型的模式。当我说 schema less 时,我可能是错的。但是我找不到让蜂巢理解这些数据的方法。这可能很简单,但我迷路了,因为我尝试了许多不同的方法但没有成功。我创建了指向 json 模式的表作为 avro uri,但这里不是这种情况。更多上下文文件是使用 crunch api 编写的

我尝试了以下创建表但未正确读取数据的查询

0 投票
1 回答
464 浏览

java - Hadoop InputFormat 将密钥设置为输入文件路径

我的 hadoop 工作需要了解每条记录的来源输入路径。

例如,假设我在一组 S3 对象上运行作业:

我想减少键值对,例如

有没有扩展org.apache.hadoop.mapreduce.InputFormat可以做到这一点?或者有比使用自定义输入格式更好的方法吗?

我知道在映射器中可以从MapContextHow to get the input file name in the mapper in a Hadoop program?)中访问此信息,但我使用的是 Apache Crunch,我无法控制我的任何步骤是 Maps 还是 Reduces,但是我可以可靠地控制 InputFormat,所以在我看来它是执行此操作的地方。

0 投票
2 回答
83 浏览

scala - Apache Crunch Scala 构建中缺少依赖项

我正在尝试在我的 CentOS 7 机器上构建Apache Crunch 源代码crunch-spark,但是当我执行时 ,项目中出现以下错误mvn package

关于类似错误(此处此处)的其他 SO 问题似乎涉及PATH或版本问题。我一直在搞乱,但似乎无法解决它们。为了完整性:

有什么建议吗?我不太确定 Scala 在哪里寻找它的依赖项,但我原以为 Maven 会处理它。