问题标签 [camus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
780 浏览

hadoop - Gobblin Map-reduce 作业在 EMR 上成功运行,但在 s3 中没有输出

我正在运行 gobblin 以使用 3 节点 EMR 集群将数据从 kafka 移动到 s3。我在 hadoop 2.6.0 上运行,我还针对 2.6.0 构建了 gobblin。

似乎 map-reduce 作业运行成功。在我的 hdfs 上,我看到了指标和工作目录。指标有一些文件,但工作目录是空的。S3 存储桶应该有最终输出,但没有数据。最后它说

输出任务状态路径 /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 不存在 删除工作目录 /gooblinOutput/working/GoblinKafkaQuickStart_mapR3

以下是最终日志:

这是我的conf文件:

文件 2:kafka-to-s3.pull

运行命令

不知道发生了什么。有人可以帮忙吗?

0 投票
1 回答
238 浏览

java - 使用 Hadoop 时如何解决 NoClassDefFoundError?

我正进入(状态

线程“主”java.lang.NoClassDefFoundError 中的异常:com/linkedin/camus/etl/IEtlKey。

在运行命令时:

我得到以下例外..

我已经包含camus-example-0.1.0-SNAPSHOT-shaded.jar在类路径中。

如果我遗漏了什么,请告诉我。

提前致谢

苏米亚吉特

0 投票
1 回答
240 浏览

hadoop - Camus 的预期提交/回滚行为是什么?

我们已经成功运行 Camus 大约一年,以仅使用几个 Kafka 主题从 Kafka(0.82 版)中提取 avro 有效负载并将 .avro 文件存储为 HDFS 中。最近,我们公司的一个新团队在我们的预生产环境中注册了大约 60 个新主题,并开始向这些主题发送数据。该团队在将数据路由到 kafka 主题时犯了一些错误,这导致 Camus 将有效负载反序列化为这些主题的 avro 时出错。Camus 作业由于超出“失败的其他”错误阈值而失败。失败后 Camus 中的行为令人惊讶,我想与其他开发人员核实我们观察到的行为是否是预期的,或者我们的实现是否存在问题。

当 Camus 作业由于超过“失败的其他”阈值而失败时,我们注意到了这种行为: 1. 所有映射器任务都成功了,因此允许 TaskAttempt 提交 - 这意味着 Camus 写入的所有数据都被复制到最终的 HDFS 位置。2. CamusJob 在计算 % 错误率时抛出异常(这是在映射器提交之后),导致作业失败 3. 因为作业失败(我认为),Kafka 偏移量没有提前

我们遇到这种行为的问题是我们的 Camus 作业设置为每 5 分钟运行一次。因此,每 5 分钟我们就会看到数据被提交到 HDFS,作业失败,并且 Kafka 偏移量没有更新——这意味着我们写入了重复的数据,直到我们注意到我们的磁盘已满。

我写了一个集成测试来确认结果——它向一个主题提交了 10 条好记录,向同一个主题提交了 10 条使用意外模式的记录,运行 Camus 作业时只将该主题列入白名单,我们可以看到 10 条记录是写入 HDFS 并且 Kafka 偏移量不高级。下面是该测试的日志片段,以及我们在运行作业时使用的属性。

感谢您提供任何帮助 - 我不确定这是否是 Camus 的预期行为,或者我们的实现是否存在问题,以及防止这种行为(复制数据)的最佳方法是什么。

谢谢~马特

测试的 CamusJob 属性:

测试中的日志片段,显示映射器成功后的提交行为以及由于超过“其他”阈值而导致的后续作业失败:

0 投票
1 回答
313 浏览

hadoop - 加缪或妖精哪个更可取

您能否帮助我设置 camus 或 gobblin 以将来自 Kafka 的消息存储在 HDFS 中。一个工作示例可能很棒。

Gobblin 仍处于孵化阶段,camus 已被淘汰。那么最好使用哪一个。

我下载了 gobblin 并运行 gobblin-standalone.sh start 但出现错误

未设置环境变量 GOBBLIN_JOB_CONFIG_DIR!.

0 投票
1 回答
1513 浏览

hadoop - 使用 camus 属性将纪元时间戳转换为日期时间格式

我的 kafka 消息有多个字段,其中包含长格式的纪元时间戳。我的消息如下所示:

当使用 camus 属性文件中的某些属性加载到 hdfs 时,有没有办法将所有这些纪元时间戳转换为日期时间格式。

0 投票
1 回答
734 浏览

hadoop - Camus Migration - Kafka HDFS Connect 未从设置的偏移量开始

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移的一致性。

割接计划:

  1. 我们创建了 hdfs sink 连接器并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为connect-的消费者组
  2. 使用 DELETE 请求停止连接器。
  3. 使用/usr/bin/kafka-consumer-groups脚本,我可以将连接器消费者组 kafka 主题分区的当前偏移量设置为所需的值(即 Camus 写入的最后偏移量 + 1)。
  4. 当我重新启动 hdfs 接收器连接器时,它会继续从最后提交的连接器偏移读取并忽略设置值。我期望 hdfs 文件名如下: hdfs_kafka_topic_name+kafkapartition+ Camus_offset +Camus_offset_plus_flush_size.format

我对融合连接器行为的期望是否正确?

0 投票
1 回答
103 浏览

hadoop - 如何将 Gobblin 输出分区为 30 分钟分区?

我们正计划从加缪迁移到地精。在加缪我们使用下面提到的配置:

但在 Gobblin 中,我们的配置如下:

这会在分钟级别上创建目录,但我们需要 30 分钟的分区。

在官方文档中找不到太多帮助:http: //gobblin.readthedocs.io/en/latest/miscellaneous/Camus-to-Gobblin-Migration/

是否有任何其他配置可用于实现此目的?

0 投票
0 回答
20 浏览

apache-kafka - 更新 camus 中的 kafka 依赖项导致 EtlRecordReader 未读取消息

在我的项目中,camus 使用了很长时间,并且永远不会更新。camus项目使用kafka 0.8.2.2版本。我想找到一种解决方法来使用 kafka 1.0.0。

所以我克隆了目录并更新了依赖项。当我这样做时,此处的消息需要此处的附加参数

如上面的 github 链接中给出的,代码可以编译,但是由于这里的条件,没有从 kafka 读取消息。

是否可以更新 kafka 依赖项以及适当的数据构造函数kafka.message.Message并使其工作。