问题标签 [gobblin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
427 浏览

hadoop - 尝试在 Dataproc 上运行 Gobblin 时出现 NoSuchMethodError

我正在尝试在 Google Dataproc 上运行Gobblin,但我得到了这个 NoSuchMethodError 并且无法弄清楚如何解决。

同样的工作(以下内容)在我的本地 hadoop 设置(在我的笔记本电脑上)上运行良好,但在 dataproc 上却没有。有人尝试过在 Dataproc 上运行 Gobblin 吗?

这是我的地精工作文件:

这些是我为 dataproc 发出的命令:

我已经尝试/usr/lib/hadoop/lib在 dataproc 集群的所有机器上复制所有 gobblins lib jar,但它也不起作用。

有任何想法吗?

0 投票
1 回答
1172 浏览

apache-spark - Spark 作为 HDFS 的数据摄取/载入

在探索 [Nifi、Gobblin 等] 等各种工具时,我观察到 Databricks 现在正在推广使用 Spark 进行数据摄取/载入。

我们有一个在 YARN 上运行的基于 spark[scala] 的应用程序。到目前为止,我们正在开发一个 hadoop 和 spark 集群,我们首先手动将所需的数据文件放在 HDFS 中,然后再运行我们的 spark 作业。现在,当我们计划使我们的应用程序可用于客户端时,我们期望来自任何数据源 [ftp、sftp、任何关系和 nosql 数据库] 的任何类型和数量的文件 [主要是 csv、jason、xml 等] 巨大的大小[范围从 GB 到 PB]。

牢记这一点,我们正在寻找在将数据推送到 HDFS 之前可用于数据载入和数据完整性的选项。

我们根据优先级寻找的选项: 1) Spark 用于数据摄取和健全性:由于我们的应用程序是编写并在 Spark 集群上运行的,我们计划也将其用于数据摄取和健全性任务。我们有点担心 Spark 对许多数据源/文件类型/等的支持。此外,我们不确定如果我们尝试从任何 FTP/SFTP 复制数据,那么所有工作人员都会在 HDFS 上并行写入数据吗?使用时有什么限制吗?在此数据复制期间,Spark 是否维护任何审计跟踪?

2)集群模式下的Nifi:为此目的Nifi有多好?它可以用于任何数据源和任何大小的文件吗?是否会维护审计跟踪?Nifi 我们能处理这么大的文件吗?如果我们尝试复制 GB - PB 的数据并在将数据推送到 HDFS 之前在该数据之上执行一定的健全性,需要多大的集群?

3) 集群模式下的 Gobblin:想听到与 Nifi 类似的答案吗?

4)如果有任何其他好的选择可用于此目的,涉及较少的基础设施/成本和更好的性能?

对于上述工具和技术的任何指导/指针/比较将不胜感激。

最好的问候, 布佩什

0 投票
1 回答
313 浏览

hadoop - 加缪或妖精哪个更可取

您能否帮助我设置 camus 或 gobblin 以将来自 Kafka 的消息存储在 HDFS 中。一个工作示例可能很棒。

Gobblin 仍处于孵化阶段,camus 已被淘汰。那么最好使用哪一个。

我下载了 gobblin 并运行 gobblin-standalone.sh start 但出现错误

未设置环境变量 GOBBLIN_JOB_CONFIG_DIR!.

0 投票
2 回答
669 浏览

classnotfoundexception - Gobblin 快速入门示例异常:ClassNotFoundException: org.apache.gobblin.example.wikipedia.WikipediaSource

我正在按照快速入门的小节“将 Gobblin 作为守护进程运行”来学习 gobblin。

我按照指南一步一步地做:

  1. 创建配置目录并设置环境变量GOBBLIN_JOB_CONFIG_DIR,并将wikipedia.pull放入其中;
  2. 创建工作目录并设置环境变量 GOBBLIN_WORK_DIR。
  3. 启动 Gobblin:./bin/gobblin-standalone.sh start

我在日志中得到了异常:

并且 wikipedia.pull 是从 github 复制的:

0 投票
2 回答
282 浏览

apache-kafka - Gobblin Kafka 到 HDFS gobblin-api-***.jar FileNotFoundException

我想通过 gobblin 收集 kafka 消息并将其存储在 hdfs 中,当我运行 gobblin-mapreduce.sh 时,脚本会抛出异常:

路径“/Users/fanjun/plugin/gobblin-dist/lib/gobblin-api-0.9.0-642-g13a21ad.jar”在我的本地磁盘上,不在hdfs中,所以找不到是合理的hdfs uri。为什么这个脚本要从 hdfs 加载 gobblin-api.jar,而不是从本地磁盘?

这是我的工作配置文件:

0 投票
0 回答
171 浏览

bigdata - apache gobblin 和 spring-cloud-dataflow 有什么区别,如何选择?

作为官方文档

Apache Gobblin 是一个通用数据摄取框架,用于从各种数据源(例如数据库、rest API、FTP/SFTP 服务器、文件管理器等)中提取、转换和加载大量数据到 Hadoop。

Spring Cloud Data Flow 是一个用于构建数据集成和实时数据处理管道的工具包。管道由 Spring Boot 应用程序组成,使用 Spring Cloud Stream 或 Spring Cloud Task 微服务框架构建。

  1. 他们之间有什么区别?
  2. 彼此的进步是什么?
  3. 在相应的场景中如何选择它们?

非常感谢任何回复

0 投票
1 回答
1996 浏览

bigdata - 阿帕奇尼菲 vs 哥布林

我正在评估一个大数据项目,我们需要从各种互联网资源(ftp、api 等)中提取大量大数据集,进行轻度转换和轻度数据质量/完整性检查(例如:行和列检查),并将其推向下游。即时关注是批量的,但预计会支持流式传输。易于大规模支持是一项重要要求。

我们正在研究 Apache Nifi 和 Gobblin,它们的意图似乎重叠。什么样的用例最适合哪个平台?它们将如何符合上述用例?

谢谢!

0 投票
1 回答
87 浏览

json - 运行 Gobblin 作业的问题

我是 Gobblin 的新手,我正在尝试在独立模式下运行一个简单的作业,但我收到以下错误:

我的工作文件是:

我的 CSV 文件是:Repo.txt

0 投票
1 回答
103 浏览

hadoop - 如何将 Gobblin 输出分区为 30 分钟分区?

我们正计划从加缪迁移到地精。在加缪我们使用下面提到的配置:

但在 Gobblin 中,我们的配置如下:

这会在分钟级别上创建目录,但我们需要 30 分钟的分区。

在官方文档中找不到太多帮助:http: //gobblin.readthedocs.io/en/latest/miscellaneous/Camus-to-Gobblin-Migration/

是否有任何其他配置可用于实现此目的?

0 投票
1 回答
344 浏览

java - 我正在尝试安装 Apache Gobblin。如何使用 Gradle 安装它?

我想Gobblin在我的 MacOS X 上安装 Apache。为此,我下载了 0.14.0 版本并按照此处的步骤操作。

安装地精

我做的第一件事是这样的:

接着:

最后:

我遇到了这样的错误。

我的 Java 版本:

爪哇 9.0.4

Java(TM) SE 运行时环境(构建 9.0.4+11)

Java HotSpot(TM) 64 位服务器 VM(内部版本 9.0.4+11,混合模式)

我的 Maven 版本:

阿帕奇 Maven 3.5.3 (3383c37e1f9e9b3bc3df5050c29c8aff9f295297; 2018-02-24T22:49:05+03:00)

Maven 主页:/usr/local/Cellar/maven/3.5.3/libexec

Java 版本:9.0.4,供应商:甲骨文公司

Java 主页:/Library/Java/JavaVirtualMachines/jdk-9.0.4.jdk/Contents/Home

默认语言环境:en_TR,平台编码:UTF-8

操作系统名称:“mac os x”,版本:“10.14.1”,arch:“x86_64”,系列:“mac”

如果有人有任何信息或建议,我正在等待。