问题标签 [gobblin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
262 浏览

hadoop - 使用 gobblin 将表从本地 mysql 导入到 hdfs 的示例作业

我已经在 cloudera VM 中安装了 gobblin。

我想运行一个示例作业以将表从本地 MySQL 导入 hdfs。

有人可以帮我吗?

谢谢。

0 投票
1 回答
2793 浏览

java - 如何使用 Java 在 Spark 1.3.1 中读取 AVRO 数据?

我正在尝试开发一个 Java Spark 应用程序,该应用程序通过一种名为 Gobblin 的技术( https://github.com/linkedin/gobblin/wiki )从 HDFS读取AVRO 记录( https://avro.apache.org/)。

示例 HDFS AVRO 数据文件:

/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro

不幸的是,我发现用 Java 编写的示例非常有限。

我发现最好的东西是用 Scala 编写的(使用 Hadoop 版本 1 库)。

任何帮助,将不胜感激。

目前我正在考虑使用下面的代码,但我不确定如何从我的 AVRO 数据中提取值的 HashMap:

我当前的 Maven 依赖项:

0 投票
1 回答
109 浏览

docker - 我如何使用 Docker eexec gobblin

我想创建 2 个 Docker 容器。一个使用 Hadood 2.7.2,另一个使用最后一个 Gobblin 实现。但我需要从 gobblin 容器启动作业以在 Hadoop "$HADOOP_BIN_DIR/hadoop jar \" 上运行。而且我总是收到同样的信息,“这不是文件或目录”。我不知道通过容器启动命令的方式。

0 投票
1 回答
780 浏览

hadoop - Gobblin Map-reduce 作业在 EMR 上成功运行,但在 s3 中没有输出

我正在运行 gobblin 以使用 3 节点 EMR 集群将数据从 kafka 移动到 s3。我在 hadoop 2.6.0 上运行,我还针对 2.6.0 构建了 gobblin。

似乎 map-reduce 作业运行成功。在我的 hdfs 上,我看到了指标和工作目录。指标有一些文件,但工作目录是空的。S3 存储桶应该有最终输出,但没有数据。最后它说

输出任务状态路径 /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 不存在 删除工作目录 /gooblinOutput/working/GoblinKafkaQuickStart_mapR3

以下是最终日志:

这是我的conf文件:

文件 2:kafka-to-s3.pull

运行命令

不知道发生了什么。有人可以帮忙吗?

0 投票
1 回答
738 浏览

hadoop - Gobblin Kafka 到 HDFS 拉取作业错误

我正在尝试使用Gobblin将数据从 Kafka 拉到 HDFS 。

Gobblin 版本(使用命令从 github 源代码编译sudo ./gradlew clean build -PuseHadoop2 -PhadoopVersion=2.7.1 -x test):

Hadoop版本:

哥布林工作:

我正在尝试gobblin-mapreduce.shgobblin-dist/bin文件夹运行,但出现错误:

日志文件包含错误:

此错误的原因可能是什么?我该如何解决?

0 投票
1 回答
718 浏览

scala - Spark - Avro 读取架构但 DataFrame 为空

我正在使用Gobblin定期从中提取关系数据Oracle,将其转换为avro并发布到HDFS

我的 dfs 目录结构如下所示

我正在尝试像这样读取它:

当我运行时,printSchema我可以看到模式被正确解释。

但是,当我运行countor时show,它们DataFrames是空的。我已通过将.avro文件转换为JSON

我怀疑它可能与目录结构有关。也许 Spark avro 库只从根目录向下一层查找.avro文件。日志似乎表明驱动程序中仅列出了 t1 下的目录:

16/07/07 10:47:09 信息 avro.AvroRelation:在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1

16/07/07 10:47:09 信息 avro.AvroRelation:在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append

有没有人经历过类似的事情,或者知道如何解决这个问题?t1因为名称是由时间戳生成的,所以我不得不指向低于目录的位置。

0 投票
1 回答
320 浏览

apache-kafka - Gobblin Kafka 到 HDFS:附加到同一个文件

有没有办法使用 Gobblin 将来自 Kafka 的新消息附加到 HDFS 中的同一文件?现在它每次从 Kafka 读取时都会创建一个新文件。例如,如果每分钟运行一次 Gobblin 作业,就会有大量文件。

请帮忙!

0 投票
1 回答
107 浏览

java - Gobblin - 如何从 Facebook 获取帖子

我一直在研究 Gobblin,目前我在使用 Gobblin 从 Facebook 获取帖子时遇到了困难。我在互联网上找不到任何连接示例,或者我可能搜索错误。

我正在考虑将 restfb 集成到 Gobblin,但是在 Gobblin 中,有一个带有连接器、源和提取器的 RestAPI 类,我正在努力寻找一种将这些组合在一起的方法。您能否为我提供有关如何实施此操作的简单指南或指出正确的说明?非常感谢您提前。

0 投票
1 回答
134 浏览

eclipse - 将 gobblin gradle 项目导入 IDE 时出错

当我尝试将 gobblin 发行版导入我的 IDE 时出现此错误,我尝试了 inteliJ 和 eclipse ,但没​​有找到任何运气。以下是我尝试导入时遇到的错误。在 Eclipse 中,错误是:

0 投票
0 回答
103 浏览

apache-kafka - Kafka 源的 Gobblin 分组工作单元

在Gobblin 文档的https://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/#grouping-workunits部分中,我们可以阅读有关单级打包的信息,其中包含以下描述

单级打包器使用最差拟合递减方法将工作单元分配给映射器:每个工作单元都转到当前负载最轻的映射器。这种方法很好地平衡了映射器。但是,同一主题的多个分区通常分配给不同的映射器。这可能会导致两个问题:(1)许多小的输出文件:如果一个主题的多个分区分配给不同的映射器,它们就不能共享输出文件。(2)任务开销:当一个topic的多个partition分配给不同的mapper时,会为每个partition创建一个task,可能会导致task数量多,开销大。

第二个开销似乎与我们在其他部分中可以阅读的内容相矛盾。高一点我们可以红

对于每个分区,在确定了第一个和最后一个偏移量之后,就会创建一个工作单元。

在这里https://gobblin.readthedocs.io/en/latest/Gobblin-Architecture/#gobblin-job-flow在第 3 点:

从 Source 给出的一组 WorkUnits 中,作业创建一组任务。任务是 WorkUnit 的运行时对应物,它表示工作的逻辑单元。通常,每个 WorkUnit 创建一个任务

因此,据我所知,除非将 WorkUnits 组合在一起,否则总会有与 Kafka 分区相关的任务(然后我们有许多 WorkUnits 的一项任务,因此有许多分区)

我是否理解这里有问题或单级包装中的第二次开销没有意义?