“gobblin”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

262 浏览

hadoop - 使用 gobblin 将表从本地 mysql 导入到 hdfs 的示例作业

我已经在 cloudera VM 中安装了 gobblin。

我想运行一个示例作业以将表从本地 MySQL 导入 hdfs。

有人可以帮我吗？

谢谢。

2015-08-02T13:43:16.113

0 投票

1 回答

2793 浏览

java - 如何使用 Java 在 Spark 1.3.1 中读取 AVRO 数据？

我正在尝试开发一个 Java Spark 应用程序，该应用程序通过一种名为 Gobblin 的技术（ https://github.com/linkedin/gobblin/wiki ）从 HDFS读取AVRO 记录（ https://avro.apache.org/）。

示例 HDFS AVRO 数据文件：

/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro

不幸的是，我发现用 Java 编写的示例非常有限。

我发现最好的东西是用 Scala 编写的（使用 Hadoop 版本 1 库）。

https://gist.github.com/MLnick/5864741781b9340cb211

任何帮助，将不胜感激。

目前我正在考虑使用下面的代码，但我不确定如何从我的 AVRO 数据中提取值的 HashMap：

我当前的 Maven 依赖项：

java apache-spark hdfs avro gobblin

2015-09-24T16:24:55.573

0 投票

1 回答

109 浏览

docker - 我如何使用 Docker eexec gobblin

我想创建 2 个 Docker 容器。一个使用 Hadood 2.7.2，另一个使用最后一个 Gobblin 实现。但我需要从 gobblin 容器启动作业以在 Hadoop "$HADOOP_BIN_DIR/hadoop jar \" 上运行。而且我总是收到同样的信息，“这不是文件或目录”。我不知道通过容器启动命令的方式。

docker hadoop gobblin

2016-03-30T15:57:14.777

0 投票

1 回答

780 浏览

hadoop - Gobblin Map-reduce 作业在 EMR 上成功运行，但在 s3 中没有输出

我正在运行 gobblin 以使用 3 节点 EMR 集群将数据从 kafka 移动到 s3。我在 hadoop 2.6.0 上运行，我还针对 2.6.0 构建了 gobblin。

似乎 map-reduce 作业运行成功。在我的 hdfs 上，我看到了指标和工作目录。指标有一些文件，但工作目录是空的。S3 存储桶应该有最终输出，但没有数据。最后它说

输出任务状态路径 /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 不存在删除工作目录 /gooblinOutput/working/GoblinKafkaQuickStart_mapR3

以下是最终日志：

这是我的conf文件：

文件 2：kafka-to-s3.pull

运行命令

不知道发生了什么。有人可以帮忙吗？

hadoop amazon-s3 amazon-emr camus gobblin

2016-04-08T18:28:00.473

0 投票

1 回答

738 浏览

hadoop - Gobblin Kafka 到 HDFS 拉取作业错误

我正在尝试使用Gobblin将数据从 Kafka 拉到 HDFS 。

Gobblin 版本（使用命令从 github 源代码编译sudo ./gradlew clean build -PuseHadoop2 -PhadoopVersion=2.7.1 -x test）：

Hadoop版本：

哥布林工作：

我正在尝试gobblin-mapreduce.sh从gobblin-dist/bin文件夹运行，但出现错误：

日志文件包含错误：

此错误的原因可能是什么？我该如何解决？

hadoop apache-kafka hadoop-yarn gobblin

2016-06-03T13:58:53.620

0 投票

1 回答

718 浏览

scala - Spark - Avro 读取架构但 DataFrame 为空

我正在使用Gobblin定期从中提取关系数据Oracle，将其转换为avro并发布到HDFS

我的 dfs 目录结构如下所示

我正在尝试像这样读取它：

当我运行时，printSchema我可以看到模式被正确解释。

但是，当我运行countor时show，它们DataFrames是空的。我已通过将.avro文件转换为JSON

我怀疑它可能与目录结构有关。也许 Spark avro 库只从根目录向下一层查找.avro文件。日志似乎表明驱动程序中仅列出了 t1 下的目录：

16/07/07 10:47:09 信息 avro.AvroRelation：在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1

16/07/07 10:47:09 信息 avro.AvroRelation：在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append

有没有人经历过类似的事情，或者知道如何解决这个问题？t1因为名称是由时间戳生成的，所以我不得不指向低于目录的位置。

scala apache-spark avro spark-avro gobblin

2016-07-07T17:05:05.743

0 投票

1 回答

320 浏览

apache-kafka - Gobblin Kafka 到 HDFS：附加到同一个文件

有没有办法使用 Gobblin 将来自 Kafka 的新消息附加到 HDFS 中的同一文件？现在它每次从 Kafka 读取时都会创建一个新文件。例如，如果每分钟运行一次 Gobblin 作业，就会有大量文件。

请帮忙！

apache-kafka hdfs gobblin

2016-08-18T23:52:02.110

0 投票

1 回答

107 浏览

java - Gobblin - 如何从 Facebook 获取帖子

我一直在研究 Gobblin，目前我在使用 Gobblin 从 Facebook 获取帖子时遇到了困难。我在互联网上找不到任何连接示例，或者我可能搜索错误。

我正在考虑将 restfb 集成到 Gobblin，但是在 Gobblin 中，有一个带有连接器、源和提取器的 RestAPI 类，我正在努力寻找一种将这些组合在一起的方法。您能否为我提供有关如何实施此操作的简单指南或指出正确的说明？非常感谢您提前。

java facebook-graph-api restfb data-ingestion gobblin

2016-11-15T04:08:32.103

0 投票

1 回答

134 浏览

eclipse - 将 gobblin gradle 项目导入 IDE 时出错

当我尝试将 gobblin 发行版导入我的 IDE 时出现此错误，我尝试了 inteliJ 和 eclipse ，但没有找到任何运气。以下是我尝试导入时遇到的错误。在 Eclipse 中，错误是：

eclipse intellij-idea bigdata gobblin

2017-02-02T05:10:23.633

0 投票

0 回答

103 浏览

apache-kafka - Kafka 源的 Gobblin 分组工作单元

在Gobblin 文档的https://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/#grouping-workunits部分中，我们可以阅读有关单级打包的信息，其中包含以下描述

单级打包器使用最差拟合递减方法将工作单元分配给映射器：每个工作单元都转到当前负载最轻的映射器。这种方法很好地平衡了映射器。但是，同一主题的多个分区通常分配给不同的映射器。这可能会导致两个问题：（1）许多小的输出文件：如果一个主题的多个分区分配给不同的映射器，它们就不能共享输出文件。(2)任务开销：当一个topic的多个partition分配给不同的mapper时，会为每个partition创建一个task，可能会导致task数量多，开销大。

第二个开销似乎与我们在其他部分中可以阅读的内容相矛盾。高一点我们可以红

对于每个分区，在确定了第一个和最后一个偏移量之后，就会创建一个工作单元。

在这里https://gobblin.readthedocs.io/en/latest/Gobblin-Architecture/#gobblin-job-flow在第 3 点：

从 Source 给出的一组 WorkUnits 中，作业创建一组任务。任务是 WorkUnit 的运行时对应物，它表示工作的逻辑单元。通常，每个 WorkUnit 创建一个任务

因此，据我所知，除非将 WorkUnits 组合在一起，否则总会有与 Kafka 分区相关的任务（然后我们有许多 WorkUnits 的一项任务，因此有许多分区）

我是否理解这里有问题或单级包装中的第二次开销没有意义？

apache-kafka linkedin gobblin

2017-04-20T14:50:19.037

问题标签 [gobblin]

Reference