问题标签 [apache-crunch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何追溯“()V" Avro 中的故障?
我正在使用 apache crunch,并从 Avro 收到一条神秘的错误消息:
“init()V”错误是什么意思?具体来说,我也想在紧缩中解决这个问题——它只在使用 Mapredce 管道选项进行作业时发生,但我没有看到它使用 MemPipeline 发生。
hadoop - Single Serialization Type (SST) of Pig/Cascading versus Multiple Serialization Type (MST) of Apache Crunch
In their FAQ here, Crunch teams highlights the main difference to be MST of Crunch over SST of Cascading. I am not sure how these are different. Can some one explain with an example?
mongodb - 使用 Crunch 将数据写入 MongoDB
我们将使用 Apache Crunch 来实现我们的新解决方案。我们想从 HBase 中提取数据,然后应用一些逻辑来过滤掉不合格的数据,最后以结构化的方式将数据写入 MongoDB 以进行进一步处理。这可行吗?关于如何使 Crunch 与 MongoDB 一起工作的任何想法?
apache-pig - 将 Avro 转换为 Parquet 格式
我想从数据库中导出数据并转换为 Avro + Parquet 格式。Sqoop 支持 Avro 导出,但不支持 Parquet。我尝试使用 Apache Pig、Apache Crunch 等将 Avro 对象转换为 Parquet,但没有任何效果。
Apache pig 给了我“原因:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。
Apache Crunch 总是抛出:java.lang.ClassNotFoundException: Class org.apache.crunch.impl.mr.run.CrunchMapper not found”,尽管我将它添加到了 Hadoop 库路径中。
将数据从 DB 导出为 Parquet 格式的最佳且简单的方法是什么?
java - 在 Apache Crunch 中,如何确定 PCollection 或 PTable 中是否包含任何元素?如果有,有多少?
我试图在监视窗口中放置一个断点并执行以下操作:检查 .getSize() 应该返回以字节为单位的大小。和 .materialize() 看看我是否可以查看 java 对象。
.getSize() 确实显示了一个 >0 的数字,但我怀疑这是否应该是 PTable 具有元素的指标。.materialize() 没有显示任何内容来表明元素的存在。
提前致谢。
hadoop - 如何将配置单元分区读入 Apache Crunch 管道?
我能够将 hdfs 中的文本文件读入 apache crunch 管道。但现在我需要读取配置单元分区。问题是根据我们的设计,我不应该直接访问该文件。因此,现在我需要某种方式来使用 HCatalog 之类的方式访问分区。
java - WordCount 与 Apache Crunch 进入 HBase Standalone
目前我正在评估 Apache Crunch。我遵循了一个简单的WordCount MapReduce 作业示例:之后我尝试将结果保存到独立的 HBase 中。HBase 正在运行(使用 jps 和 HBase shell 检查),如下所述:http: //hbase.apache.org/book/quickstart.html
现在我采用写入 HBase 的示例:
我得到一个异常:“异常:java.lang.illegalArgumentException:HBaseTarget 只支持放置和删除”
任何线索出了什么问题?
hive - 为架构少的 avro 文件创建配置单元表
我有多个 avro 文件,每个文件中都有一个 STRING。每个 avro 文件都是一行。如何编写配置单元表以使用位于单个目录中的所有 avro 文件。每个文件都有一个很大的数字,因此我也没有任何我可以关联的 json 类型的模式。当我说 schema less 时,我可能是错的。但是我找不到让蜂巢理解这些数据的方法。这可能很简单,但我迷路了,因为我尝试了许多不同的方法但没有成功。我创建了指向 json 模式的表作为 avro uri,但这里不是这种情况。更多上下文文件是使用 crunch api 编写的
我尝试了以下创建表但未正确读取数据的查询
java - Hadoop InputFormat 将密钥设置为输入文件路径
我的 hadoop 工作需要了解每条记录的来源输入路径。
例如,假设我在一组 S3 对象上运行作业:
我想减少键值对,例如
有没有扩展org.apache.hadoop.mapreduce.InputFormat
可以做到这一点?或者有比使用自定义输入格式更好的方法吗?
我知道在映射器中可以从MapContext
(How to get the input file name in the mapper in a Hadoop program?)中访问此信息,但我使用的是 Apache Crunch,我无法控制我的任何步骤是 Maps 还是 Reduces,但是我可以可靠地控制 InputFormat,所以在我看来它是执行此操作的地方。
scala - Apache Crunch Scala 构建中缺少依赖项
我正在尝试在我的 CentOS 7 机器上构建Apache Crunch 源代码crunch-spark
,但是当我执行时 ,项目中出现以下错误mvn package
:
关于类似错误(此处和此处)的其他 SO 问题似乎涉及PATH
或版本问题。我一直在搞乱,但似乎无法解决它们。为了完整性:
有什么建议吗?我不太确定 Scala 在哪里寻找它的依赖项,但我原以为 Maven 会处理它。