问题标签 [apache-crunch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

51 问题

0 投票

3 回答

738 浏览

java - 如何追溯“()V" Avro 中的故障？

我正在使用 apache crunch，并从 Avro 收到一条神秘的错误消息：

“init()V”错误是什么意思？具体来说，我也想在紧缩中解决这个问题——它只在使用 Mapredce 管道选项进行作业时发生，但我没有看到它使用 MemPipeline 发生。

2014-01-06T14:15:33.687

0 投票

0 回答

114 浏览

hadoop - Single Serialization Type (SST) of Pig/Cascading versus Multiple Serialization Type (MST) of Apache Crunch

In their FAQ here, Crunch teams highlights the main difference to be MST of Crunch over SST of Cascading. I am not sure how these are different. Can some one explain with an example?

hadoop cloudera cascading hadoop2 apache-crunch

2014-03-09T23:44:59.023

0 投票

1 回答

63 浏览

mongodb - 使用 Crunch 将数据写入 MongoDB

我们将使用 Apache Crunch 来实现我们的新解决方案。我们想从 HBase 中提取数据，然后应用一些逻辑来过滤掉不合格的数据，最后以结构化的方式将数据写入 MongoDB 以进行进一步处理。这可行吗？关于如何使 Crunch 与 MongoDB 一起工作的任何想法？

mongodb apache-crunch bigdata

2014-03-31T19:39:05.680

0 投票

3 回答

5748 浏览

apache-pig - 将 Avro 转换为 Parquet 格式

我想从数据库中导出数据并转换为 Avro + Parquet 格式。Sqoop 支持 Avro 导出，但不支持 Parquet。我尝试使用 Apache Pig、Apache Crunch 等将 Avro 对象转换为 Parquet，但没有任何效果。

Apache pig 给了我“原因：org.apache.hadoop.mapreduce.lib.input.InvalidInputException：输入路径不存在”。但是输入路径存在于该位置。

Apache Crunch 总是抛出：java.lang.ClassNotFoundException: Class org.apache.crunch.impl.mr.run.CrunchMapper not found”，尽管我将它添加到了 Hadoop 库路径中。

将数据从 DB 导出为 Parquet 格式的最佳且简单的方法是什么？

apache-pig sqoop avro parquet apache-crunch

2014-05-05T23:03:30.340

0 投票

2 回答

1378 浏览

java - 在 Apache Crunch 中，如何确定 PCollection 或 PTable 中是否包含任何元素？如果有，有多少？

我试图在监视窗口中放置一个断点并执行以下操作：检查 .getSize() 应该返回以字节为单位的大小。和 .materialize() 看看我是否可以查看 java 对象。

.getSize() 确实显示了一个 >0 的数字，但我怀疑这是否应该是 PTable 具有元素的指标。.materialize() 没有显示任何内容来表明元素的存在。

提前致谢。

java hadoop collections mapreduce apache-crunch

2014-08-25T19:48:29.017

0 投票

1 回答

482 浏览

hadoop - 如何将配置单元分区读入 Apache Crunch 管道？

我能够将 hdfs 中的文本文件读入 apache crunch 管道。但现在我需要读取配置单元分区。问题是根据我们的设计，我不应该直接访问该文件。因此，现在我需要某种方式来使用 HCatalog 之类的方式访问分区。

hadoop hive pipeline hcatalog apache-crunch

2014-10-20T08:20:10.097

0 投票

1 回答

482 浏览

java - WordCount 与 Apache Crunch 进入 HBase Standalone

目前我正在评估 Apache Crunch。我遵循了一个简单的WordCount MapReduce 作业示例：之后我尝试将结果保存到独立的 HBase 中。HBase 正在运行（使用 jps 和 HBase shell 检查），如下所述：http: //hbase.apache.org/book/quickstart.html

现在我采用写入 HBase 的示例：

我得到一个异常：“异常：java.lang.illegalArgumentException：HBaseTarget 只支持放置和删除”

任何线索出了什么问题？

java hadoop mapreduce hbase apache-crunch

2014-12-17T14:57:15.990

0 投票

2 回答

3326 浏览

hive - 为架构少的 avro 文件创建配置单元表

我有多个 avro 文件，每个文件中都有一个 STRING。每个 avro 文件都是一行。如何编写配置单元表以使用位于单个目录中的所有 avro 文件。每个文件都有一个很大的数字，因此我也没有任何我可以关联的 json 类型的模式。当我说 schema less 时，我可能是错的。但是我找不到让蜂巢理解这些数据的方法。这可能很简单，但我迷路了，因为我尝试了许多不同的方法但没有成功。我创建了指向 json 模式的表作为 avro uri，但这里不是这种情况。更多上下文文件是使用 crunch api 编写的

我尝试了以下创建表但未正确读取数据的查询

hive avro apache-crunch

2015-01-23T04:34:03.340

0 投票

1 回答

464 浏览

java - Hadoop InputFormat 将密钥设置为输入文件路径

我的 hadoop 工作需要了解每条记录的来源输入路径。

例如，假设我在一组 S3 对象上运行作业：

我想减少键值对，例如

有没有扩展org.apache.hadoop.mapreduce.InputFormat可以做到这一点？或者有比使用自定义输入格式更好的方法吗？

我知道在映射器中可以从MapContext（How to get the input file name in the mapper in a Hadoop program?）中访问此信息，但我使用的是 Apache Crunch，我无法控制我的任何步骤是 Maps 还是 Reduces，但是我可以可靠地控制 InputFormat，所以在我看来它是执行此操作的地方。

java hadoop apache-crunch

2015-03-05T19:43:00.693

0 投票

2 回答

83 浏览

scala - Apache Crunch Scala 构建中缺少依赖项

我正在尝试在我的 CentOS 7 机器上构建Apache Crunch 源代码crunch-spark，但是当我执行时，项目中出现以下错误mvn package：

关于类似错误（此处和此处）的其他 SO 问题似乎涉及PATH或版本问题。我一直在搞乱，但似乎无法解决它们。为了完整性：

有什么建议吗？我不太确定 Scala 在哪里寻找它的依赖项，但我原以为 Maven 会处理它。

scala maven apache-crunch

2015-03-24T20:29:25.220

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-crunch]

Reference