“camus”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

780 浏览

hadoop - Gobblin Map-reduce 作业在 EMR 上成功运行，但在 s3 中没有输出

我正在运行 gobblin 以使用 3 节点 EMR 集群将数据从 kafka 移动到 s3。我在 hadoop 2.6.0 上运行，我还针对 2.6.0 构建了 gobblin。

似乎 map-reduce 作业运行成功。在我的 hdfs 上，我看到了指标和工作目录。指标有一些文件，但工作目录是空的。S3 存储桶应该有最终输出，但没有数据。最后它说

输出任务状态路径 /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 不存在删除工作目录 /gooblinOutput/working/GoblinKafkaQuickStart_mapR3

以下是最终日志：

这是我的conf文件：

文件 2：kafka-to-s3.pull

运行命令

不知道发生了什么。有人可以帮忙吗？

2016-04-08T18:28:00.473

0 投票

1 回答

238 浏览

java - 使用 Hadoop 时如何解决 NoClassDefFoundError？

我正进入（状态

线程“主”java.lang.NoClassDefFoundError 中的异常：com/linkedin/camus/etl/IEtlKey。

在运行命令时：

我得到以下例外..

我已经包含camus-example-0.1.0-SNAPSHOT-shaded.jar在类路径中。

如果我遗漏了什么，请告诉我。

提前致谢

苏米亚吉特

java hadoop noclassdeffounderror camus

2016-04-27T06:18:54.857

0 投票

1 回答

240 浏览

hadoop - Camus 的预期提交/回滚行为是什么？

我们已经成功运行 Camus 大约一年，以仅使用几个 Kafka 主题从 Kafka（0.82 版）中提取 avro 有效负载并将 .avro 文件存储为 HDFS 中。最近，我们公司的一个新团队在我们的预生产环境中注册了大约 60 个新主题，并开始向这些主题发送数据。该团队在将数据路由到 kafka 主题时犯了一些错误，这导致 Camus 将有效负载反序列化为这些主题的 avro 时出错。Camus 作业由于超出“失败的其他”错误阈值而失败。失败后 Camus 中的行为令人惊讶，我想与其他开发人员核实我们观察到的行为是否是预期的，或者我们的实现是否存在问题。

当 Camus 作业由于超过“失败的其他”阈值而失败时，我们注意到了这种行为： 1. 所有映射器任务都成功了，因此允许 TaskAttempt 提交 - 这意味着 Camus 写入的所有数据都被复制到最终的 HDFS 位置。2. CamusJob 在计算 % 错误率时抛出异常（这是在映射器提交之后），导致作业失败 3. 因为作业失败（我认为），Kafka 偏移量没有提前

我们遇到这种行为的问题是我们的 Camus 作业设置为每 5 分钟运行一次。因此，每 5 分钟我们就会看到数据被提交到 HDFS，作业失败，并且 Kafka 偏移量没有更新——这意味着我们写入了重复的数据，直到我们注意到我们的磁盘已满。

我写了一个集成测试来确认结果——它向一个主题提交了 10 条好记录，向同一个主题提交了 10 条使用意外模式的记录，运行 Camus 作业时只将该主题列入白名单，我们可以看到 10 条记录是写入 HDFS 并且 Kafka 偏移量不高级。下面是该测试的日志片段，以及我们在运行作业时使用的属性。

感谢您提供任何帮助 - 我不确定这是否是 Camus 的预期行为，或者我们的实现是否存在问题，以及防止这种行为（复制数据）的最佳方法是什么。

谢谢~马特

测试的 CamusJob 属性：

测试中的日志片段，显示映射器成功后的提交行为以及由于超过“其他”阈值而导致的后续作业失败：

hadoop camus

2016-07-09T22:51:42.617

0 投票

1 回答

313 浏览

hadoop - 加缪或妖精哪个更可取

您能否帮助我设置 camus 或 gobblin 以将来自 Kafka 的消息存储在 HDFS 中。一个工作示例可能很棒。

Gobblin 仍处于孵化阶段，camus 已被淘汰。那么最好使用哪一个。

我下载了 gobblin 并运行 gobblin-standalone.sh start 但出现错误

未设置环境变量 GOBBLIN_JOB_CONFIG_DIR！.

hadoop apache-kafka hdfs camus gobblin

2017-08-26T18:40:59.647

0 投票

1 回答

1513 浏览

hadoop - 使用 camus 属性将纪元时间戳转换为日期时间格式

我的 kafka 消息有多个字段，其中包含长格式的纪元时间戳。我的消息如下所示：

当使用 camus 属性文件中的某些属性加载到 hdfs 时，有没有办法将所有这些纪元时间戳转换为日期时间格式。

hadoop apache-kafka hdfs apache-kafka-connect camus

2018-02-22T12:17:48.010

0 投票

1 回答

734 浏览

hadoop - Camus Migration - Kafka HDFS Connect 未从设置的偏移量开始

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus。我们正在处理敏感数据，因此我们需要在切换到连接器期间保持偏移的一致性。

割接计划：

我们创建了 hdfs sink 连接器并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为connect-的消费者组
使用 DELETE 请求停止连接器。
使用/usr/bin/kafka-consumer-groups脚本，我可以将连接器消费者组 kafka 主题分区的当前偏移量设置为所需的值（即 Camus 写入的最后偏移量 + 1）。
当我重新启动 hdfs 接收器连接器时，它会继续从最后提交的连接器偏移读取并忽略设置值。我期望 hdfs 文件名如下： hdfs_kafka_topic_name+kafkapartition+ Camus_offset +Camus_offset_plus_flush_size.format

我对融合连接器行为的期望是否正确？

hadoop apache-kafka hdfs apache-kafka-connect camus

2018-04-15T01:55:02.160

0 投票

1 回答

103 浏览

hadoop - 如何将 Gobblin 输出分区为 30 分钟分区？

我们正计划从加缪迁移到地精。在加缪我们使用下面提到的配置：

但在 Gobblin 中，我们的配置如下：

这会在分钟级别上创建目录，但我们需要 30 分钟的分区。

在官方文档中找不到太多帮助：http: //gobblin.readthedocs.io/en/latest/miscellaneous/Camus-to-Gobblin-Migration/

是否有任何其他配置可用于实现此目的？

hadoop apache-kafka hdfs camus gobblin

2018-07-19T11:05:50.413

0 投票

0 回答

20 浏览

apache-kafka - 更新 camus 中的 kafka 依赖项导致 EtlRecordReader 未读取消息

在我的项目中，camus 使用了很长时间，并且永远不会更新。camus项目使用kafka 0.8.2.2版本。我想找到一种解决方法来使用 kafka 1.0.0。

所以我克隆了目录并更新了依赖项。当我这样做时，此处的消息需要此处的附加参数。

如上面的 github 链接中给出的，代码可以编译，但是由于这里的条件，没有从 kafka 读取消息。

是否可以更新 kafka 依赖项以及适当的数据构造函数kafka.message.Message并使其工作。

apache-kafka kafka-consumer-api kafka-producer-api camus

2018-10-17T21:54:33.573

问题标签 [camus]

Reference