问题标签 [gobblin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 使用 gobblin 将表从本地 mysql 导入到 hdfs 的示例作业
我已经在 cloudera VM 中安装了 gobblin。
我想运行一个示例作业以将表从本地 MySQL 导入 hdfs。
有人可以帮我吗?
谢谢。
java - 如何使用 Java 在 Spark 1.3.1 中读取 AVRO 数据?
我正在尝试开发一个 Java Spark 应用程序,该应用程序通过一种名为 Gobblin 的技术( https://github.com/linkedin/gobblin/wiki )从 HDFS读取AVRO 记录( https://avro.apache.org/)。
示例 HDFS AVRO 数据文件:
/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro
不幸的是,我发现用 Java 编写的示例非常有限。
- https://spark.apache.org/docs/1.3.1/quick-start.html
- https://spark.apache.org/docs/1.3.1/programming-guide.html
我发现最好的东西是用 Scala 编写的(使用 Hadoop 版本 1 库)。
任何帮助,将不胜感激。
目前我正在考虑使用下面的代码,但我不确定如何从我的 AVRO 数据中提取值的 HashMap:
我当前的 Maven 依赖项:
docker - 我如何使用 Docker eexec gobblin
我想创建 2 个 Docker 容器。一个使用 Hadood 2.7.2,另一个使用最后一个 Gobblin 实现。但我需要从 gobblin 容器启动作业以在 Hadoop "$HADOOP_BIN_DIR/hadoop jar \" 上运行。而且我总是收到同样的信息,“这不是文件或目录”。我不知道通过容器启动命令的方式。
hadoop - Gobblin Map-reduce 作业在 EMR 上成功运行,但在 s3 中没有输出
我正在运行 gobblin 以使用 3 节点 EMR 集群将数据从 kafka 移动到 s3。我在 hadoop 2.6.0 上运行,我还针对 2.6.0 构建了 gobblin。
似乎 map-reduce 作业运行成功。在我的 hdfs 上,我看到了指标和工作目录。指标有一些文件,但工作目录是空的。S3 存储桶应该有最终输出,但没有数据。最后它说
输出任务状态路径 /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 不存在 删除工作目录 /gooblinOutput/working/GoblinKafkaQuickStart_mapR3
以下是最终日志:
这是我的conf文件:
文件 2:kafka-to-s3.pull
运行命令
不知道发生了什么。有人可以帮忙吗?
hadoop - Gobblin Kafka 到 HDFS 拉取作业错误
我正在尝试使用Gobblin将数据从 Kafka 拉到 HDFS 。
Gobblin 版本(使用命令从 github 源代码编译sudo ./gradlew clean build -PuseHadoop2 -PhadoopVersion=2.7.1 -x test
):
Hadoop版本:
哥布林工作:
我正在尝试gobblin-mapreduce.sh
从gobblin-dist/bin
文件夹运行,但出现错误:
日志文件包含错误:
此错误的原因可能是什么?我该如何解决?
scala - Spark - Avro 读取架构但 DataFrame 为空
我正在使用Gobblin定期从中提取关系数据Oracle
,将其转换为avro
并发布到HDFS
我的 dfs 目录结构如下所示
我正在尝试像这样读取它:
当我运行时,printSchema
我可以看到模式被正确解释。
但是,当我运行count
or时show
,它们DataFrames
是空的。我已通过将.avro
文件转换为JSON
我怀疑它可能与目录结构有关。也许 Spark avro 库只从根目录向下一层查找.avro
文件。日志似乎表明驱动程序中仅列出了 t1 下的目录:
16/07/07 10:47:09 信息 avro.AvroRelation:在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1
16/07/07 10:47:09 信息 avro.AvroRelation:在驱动程序上列出 hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append
有没有人经历过类似的事情,或者知道如何解决这个问题?t1
因为名称是由时间戳生成的,所以我不得不指向低于目录的位置。
apache-kafka - Gobblin Kafka 到 HDFS:附加到同一个文件
有没有办法使用 Gobblin 将来自 Kafka 的新消息附加到 HDFS 中的同一文件?现在它每次从 Kafka 读取时都会创建一个新文件。例如,如果每分钟运行一次 Gobblin 作业,就会有大量文件。
请帮忙!
java - Gobblin - 如何从 Facebook 获取帖子
我一直在研究 Gobblin,目前我在使用 Gobblin 从 Facebook 获取帖子时遇到了困难。我在互联网上找不到任何连接示例,或者我可能搜索错误。
我正在考虑将 restfb 集成到 Gobblin,但是在 Gobblin 中,有一个带有连接器、源和提取器的 RestAPI 类,我正在努力寻找一种将这些组合在一起的方法。您能否为我提供有关如何实施此操作的简单指南或指出正确的说明?非常感谢您提前。
eclipse - 将 gobblin gradle 项目导入 IDE 时出错
当我尝试将 gobblin 发行版导入我的 IDE 时出现此错误,我尝试了 inteliJ 和 eclipse ,但没有找到任何运气。以下是我尝试导入时遇到的错误。在 Eclipse 中,错误是:
apache-kafka - Kafka 源的 Gobblin 分组工作单元
在Gobblin 文档的https://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/#grouping-workunits部分中,我们可以阅读有关单级打包的信息,其中包含以下描述
单级打包器使用最差拟合递减方法将工作单元分配给映射器:每个工作单元都转到当前负载最轻的映射器。这种方法很好地平衡了映射器。但是,同一主题的多个分区通常分配给不同的映射器。这可能会导致两个问题:(1)许多小的输出文件:如果一个主题的多个分区分配给不同的映射器,它们就不能共享输出文件。(2)任务开销:当一个topic的多个partition分配给不同的mapper时,会为每个partition创建一个task,可能会导致task数量多,开销大。
第二个开销似乎与我们在其他部分中可以阅读的内容相矛盾。高一点我们可以红
对于每个分区,在确定了第一个和最后一个偏移量之后,就会创建一个工作单元。
在这里https://gobblin.readthedocs.io/en/latest/Gobblin-Architecture/#gobblin-job-flow在第 3 点:
从 Source 给出的一组 WorkUnits 中,作业创建一组任务。任务是 WorkUnit 的运行时对应物,它表示工作的逻辑单元。通常,每个 WorkUnit 创建一个任务
因此,据我所知,除非将 WorkUnits 组合在一起,否则总会有与 Kafka 分区相关的任务(然后我们有许多 WorkUnits 的一项任务,因此有许多分区)
我是否理解这里有问题或单级包装中的第二次开销没有意义?