“gobblin”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

427 浏览

hadoop - 尝试在 Dataproc 上运行 Gobblin 时出现 NoSuchMethodError

我正在尝试在 Google Dataproc 上运行Gobblin，但我得到了这个 NoSuchMethodError 并且无法弄清楚如何解决。

同样的工作（以下内容）在我的本地 hadoop 设置（在我的笔记本电脑上）上运行良好，但在 dataproc 上却没有。有人尝试过在 Dataproc 上运行 Gobblin 吗？

这是我的地精工作文件：

这些是我为 dataproc 发出的命令：

我已经尝试/usr/lib/hadoop/lib在 dataproc 集群的所有机器上复制所有 gobblins lib jar，但它也不起作用。

有任何想法吗？

2017-05-17T22:58:42.977

0 投票

1 回答

1172 浏览

apache-spark - Spark 作为 HDFS 的数据摄取/载入

在探索 [Nifi、Gobblin 等] 等各种工具时，我观察到 Databricks 现在正在推广使用 Spark 进行数据摄取/载入。

我们有一个在 YARN 上运行的基于 spark[scala] 的应用程序。到目前为止，我们正在开发一个 hadoop 和 spark 集群，我们首先手动将所需的数据文件放在 HDFS 中，然后再运行我们的 spark 作业。现在，当我们计划使我们的应用程序可用于客户端时，我们期望来自任何数据源 [ftp、sftp、任何关系和 nosql 数据库] 的任何类型和数量的文件 [主要是 csv、jason、xml 等] 巨大的大小[范围从 GB 到 PB]。

牢记这一点，我们正在寻找在将数据推送到 HDFS 之前可用于数据载入和数据完整性的选项。

我们根据优先级寻找的选项： 1) Spark 用于数据摄取和健全性：由于我们的应用程序是编写并在 Spark 集群上运行的，我们计划也将其用于数据摄取和健全性任务。我们有点担心 Spark 对许多数据源/文件类型/等的支持。此外，我们不确定如果我们尝试从任何 FTP/SFTP 复制数据，那么所有工作人员都会在 HDFS 上并行写入数据吗？使用时有什么限制吗？在此数据复制期间，Spark 是否维护任何审计跟踪？

2）集群模式下的Nifi：为此目的Nifi有多好？它可以用于任何数据源和任何大小的文件吗？是否会维护审计跟踪？Nifi 我们能处理这么大的文件吗？如果我们尝试复制 GB - PB 的数据并在将数据推送到 HDFS 之前在该数据之上执行一定的健全性，需要多大的集群？

3) 集群模式下的 Gobblin：想听到与 Nifi 类似的答案吗？

4）如果有任何其他好的选择可用于此目的，涉及较少的基础设施/成本和更好的性能？

对于上述工具和技术的任何指导/指针/比较将不胜感激。

最好的问候，布佩什

apache-spark hadoop apache-nifi hadoop-plugins gobblin

2017-06-01T10:26:20.500

0 投票

1 回答

313 浏览

hadoop - 加缪或妖精哪个更可取

您能否帮助我设置 camus 或 gobblin 以将来自 Kafka 的消息存储在 HDFS 中。一个工作示例可能很棒。

Gobblin 仍处于孵化阶段，camus 已被淘汰。那么最好使用哪一个。

我下载了 gobblin 并运行 gobblin-standalone.sh start 但出现错误

未设置环境变量 GOBBLIN_JOB_CONFIG_DIR！.

hadoop apache-kafka hdfs camus gobblin

2017-08-26T18:40:59.647

0 投票

2 回答

669 浏览

classnotfoundexception - Gobblin 快速入门示例异常：ClassNotFoundException: org.apache.gobblin.example.wikipedia.WikipediaSource

我正在按照快速入门的小节“将 Gobblin 作为守护进程运行”来学习 gobblin。

我按照指南一步一步地做：

创建配置目录并设置环境变量GOBBLIN_JOB_CONFIG_DIR，并将wikipedia.pull放入其中；
创建工作目录并设置环境变量 GOBBLIN_WORK_DIR。
启动 Gobblin：./bin/gobblin-standalone.sh start

我在日志中得到了异常：

并且 wikipedia.pull 是从 github 复制的：

classnotfoundexception gobblin

2017-10-18T09:14:56.640

0 投票

2 回答

282 浏览

apache-kafka - Gobblin Kafka 到 HDFS gobblin-api-***.jar FileNotFoundException

我想通过 gobblin 收集 kafka 消息并将其存储在 hdfs 中，当我运行 gobblin-mapreduce.sh 时，脚本会抛出异常：

路径“/Users/fanjun/plugin/gobblin-dist/lib/gobblin-api-0.9.0-642-g13a21ad.jar”在我的本地磁盘上，不在hdfs中，所以找不到是合理的hdfs uri。为什么这个脚本要从 hdfs 加载 gobblin-api.jar，而不是从本地磁盘？

这是我的工作配置文件：

apache-kafka gobblin

2017-10-19T04:01:55.727

0 投票

0 回答

171 浏览

bigdata - apache gobblin 和 spring-cloud-dataflow 有什么区别，如何选择？

作为官方文档

Apache Gobblin 是一个通用数据摄取框架，用于从各种数据源（例如数据库、rest API、FTP/SFTP 服务器、文件管理器等）中提取、转换和加载大量数据到 Hadoop。

Spring Cloud Data Flow 是一个用于构建数据集成和实时数据处理管道的工具包。管道由 Spring Boot 应用程序组成，使用 Spring Cloud Stream 或 Spring Cloud Task 微服务框架构建。

他们之间有什么区别？
彼此的进步是什么？
在相应的场景中如何选择它们？

非常感谢任何回复

bigdata etl data-ingestion gobblin

2018-01-24T07:32:51.657

0 投票

1 回答

1996 浏览

bigdata - 阿帕奇尼菲 vs 哥布林

我正在评估一个大数据项目，我们需要从各种互联网资源（ftp、api 等）中提取大量大数据集，进行轻度转换和轻度数据质量/完整性检查（例如：行和列检查），并将其推向下游。即时关注是批量的，但预计会支持流式传输。易于大规模支持是一项重要要求。

我们正在研究 Apache Nifi 和 Gobblin，它们的意图似乎重叠。什么样的用例最适合哪个平台？它们将如何符合上述用例？

谢谢！

bigdata etl apache-nifi gobblin

2018-02-27T14:06:49.877

0 投票

1 回答

87 浏览

json - 运行 Gobblin 作业的问题

我是 Gobblin 的新手，我正在尝试在独立模式下运行一个简单的作业，但我收到以下错误：

我的工作文件是：

我的 CSV 文件是：Repo.txt

json csv exception gobblin

2018-06-25T06:46:01.247

0 投票

1 回答

103 浏览

hadoop - 如何将 Gobblin 输出分区为 30 分钟分区？

我们正计划从加缪迁移到地精。在加缪我们使用下面提到的配置：

但在 Gobblin 中，我们的配置如下：

这会在分钟级别上创建目录，但我们需要 30 分钟的分区。

在官方文档中找不到太多帮助：http: //gobblin.readthedocs.io/en/latest/miscellaneous/Camus-to-Gobblin-Migration/

是否有任何其他配置可用于实现此目的？

hadoop apache-kafka hdfs camus gobblin

2018-07-19T11:05:50.413

0 投票

1 回答

344 浏览

java - 我正在尝试安装 Apache Gobblin。如何使用 Gradle 安装它？

我想Gobblin在我的 MacOS X 上安装 Apache。为此，我下载了 0.14.0 版本并按照此处的步骤操作。

安装地精

我做的第一件事是这样的：

接着：

最后：

我遇到了这样的错误。

我的 Java 版本：

爪哇 9.0.4

Java(TM) SE 运行时环境（构建 9.0.4+11）

Java HotSpot(TM) 64 位服务器 VM（内部版本 9.0.4+11，混合模式）

我的 Maven 版本：

阿帕奇 Maven 3.5.3 (3383c37e1f9e9b3bc3df5050c29c8aff9f295297; 2018-02-24T22:49:05+03:00)

Maven 主页：/usr/local/Cellar/maven/3.5.3/libexec

Java 版本：9.0.4，供应商：甲骨文公司

Java 主页：/Library/Java/JavaVirtualMachines/jdk-9.0.4.jdk/Contents/Home

默认语言环境：en_TR，平台编码：UTF-8

操作系统名称：“mac os x”，版本：“10.14.1”，arch：“x86_64”，系列：“mac”

如果有人有任何信息或建议，我正在等待。

java macos maven gradle gobblin

2018-12-13T20:18:51.160

问题标签 [gobblin]

Reference