问题标签 [gobblin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
50 浏览

systemd - 启动 Apache Gobblin 时自定义服务 systemd 的问题

直接运行/opt/gobblin/bin/gobblin-standalone.sh start一切正常,日志中的输出很好。

通过 systemd 服务运行它,不起作用。日志中没有任何输出。

下面的代码/usr/lib/systemd/system/gobblin.service

0 投票
0 回答
60 浏览

apache-kafka - Kafka 到 kafka 在 krb5 安全性背后使用 Gobblin

如果在没有 kerberos 安全性的情况下使用 kafka 到 kafka 运行简单的工作,一切都会正常工作。我需要做同样的事情,但在 kerberos 安全性之后。看看下面我的工作代码:

下面的输出问题:

0 投票
0 回答
130 浏览

hadoop - Gobblin MapReduce 从 protobuf 转换为 Parquet

试图找到一个如何使用 Gobblin 将 protobuf 消息转换为 parquet 的示例。找不到任何东西。

Gobblin 运行时确实有一个编写器构建器,称为:

https://github.com/apache/incubator-gobblin/blob/master/gobblin-modules/gobblin-parquet/src/main/java/org/apache/gobblin/writer/ParquetDataWriterBuilder.java

但这似乎并没有按原样接收 Protobuf 消息。他们必须首先转换为一个组。

无法弄清楚如何将 protobuf 消息转换为组。

任何指向使用 protobuf 到镶木地板转换的工作 Gobblin 消费者的指针都应该有所帮助。

0 投票
1 回答
52 浏览

gobblin - 安装地精时构建失败

我对地精很陌生。我在安装 Gobblin 时遇到构建失败。以下是终端输出: * 尝试:使用 --stacktrace 选项运行以获取堆栈跟踪。使用 --info 或 --debug 选项运行以获得更多日志输出。运行 --scan 以获得完整的见解。

此版本中使用了已弃用的 Gradle 功能,使其与 Gradle 5.0 不兼容。使用“--warning-mode all”显示各个弃用警告。见https://docs.gradle.org/4.9/userguide/command_line_interface.html#sec:command_line_warnings

17 秒内构建失败 307 个可操作的任务:15 个已执行,292 个是最新的

idl 兼容性报告:不兼容的更改:1)“/home/m/TeamMembers/A/incubator-gobblin-release-0.14.0/gobblin-rest-service/gobblin-rest-api/src/main/snapshot/org 的资源.apache.gobblin.rest.jobExecutions.snapshot.json”没有找到。该端点将不会被释放。请删除此文件并重新构建 2) "/home/m/TeamMembers/A/incubator-gobblin-release-0.14.0/gobblin-rest-service/gobblin-rest-api/src/main/idl/org 的资源.apache.gobblin.rest.jobExecutions.restspec.json”没有找到。该端点将不会被释放。请删除此文件并重新构建

[RS-I]:“/home/m/TeamMembers/A/incubator-gobblin-release-0.14.0/gobblin-rest-service/gobblin-rest-api/src/main/snapshot/org.apache 的资源。找不到 gobblin.rest.jobExecutions.snapshot.json”。该端点将不会被释放。请删除此文件并重新构建 [RS-I]:Resource for "/home/m/TeamMembers/A/incubator-gobblin-release-0.14.0/gobblin-rest-service/gobblin-rest-api/src/main找不到 /idl/org.apache.gobblin.rest.jobExecutions.restspec.json”。该端点将不会被释放。请删除此文件并重新构建

0 投票
1 回答
92 浏览

java - 无法确定任务 ':gobblin-distribution:buildDistributionTar' 的依赖关系

我是地精的新手。我已经下载了incubator-gobblin-gobblin_0.11.0。在执行时按照此处给出的说明在 Windows 10 上安装地精时,./gradlew :gobblin-distribution:buildDistributionTar 我得到了以下结果。

java版本“1.8.0_241”

如果有人知道如何解决它,请帮助。

0 投票
1 回答
316 浏览

java - 错误:无法找到或加载主类 org.apache.gobblin.runtime.cli.GobblinCli

我是地精的新手。我从孵化器-地精 GitHub 主分支构建地精。现在我正在从入门指南中获取维基百科示例,但出现以下错误。

WARN: HADOOP_HOME is not defined. Gobblin Hadoop libs will be used in classpath. Error: Could not find or load main class org.apache.gobblin.runtime.cli.GobblinCli

有了--show-classpath它,我该/mnt/c/users/name/incubator-gobblin/conf/classpath:: 如何解决?如果有人知道解决方案,请告诉我。

0 投票
0 回答
295 浏览

java - Gobblin:错误:java.io.IOException:无法提交作业作业的某些数据集的数据集状态_GobblinKafkaQuickStart

我正在尝试按照https://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/将数据从 kafka 主题摄取到 hdfs

我正在遵循的步骤:

启动动物园管理员
$ zookeeper-server-start.bat C:\Users\name\kafka_2.11-1.1.0\config\zookeeper.properties

启动卡夫卡
$ kafka-server-start.bat C:\Users\name\kafka_2.11-1.1.0\config\server.properties

如果不存在,则创建 kafka 主题
$ kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

启动 hadoop
$ C:\Users\name\hadoop-3.1.3\sbin\start-all.cmd

在 GOBBLIN_JOB_CONFIG_DIR 中创建 kafka-hdfs.pull 如下

设置 GOBBLIN_WORK_DIR
$ export GOBBLIN_WORK_DIR=/mnt/c/users/name/incubator-gobblin/GOBBLIN_WORK_DIR

设置 GOBBLIN_JOB_CONFIG_DIR
$ export GOBBLIN_JOB_CONFIG_DIR=/mnt/c/users/name/incubator-gobblin/GOBBLIN_JOB_CONFIG_DIR

独立启动
$ bin/gobblin.sh service standalone start

以下是在 logs/standalone.out 中发现的一些错误

请告诉我该如何解决。

0 投票
1 回答
104 浏览

gobblin - KafkaHDFS 示例出错:java.lang.NoSuchMethodError

我在尝试 Kafka-HDFS 数据摄取示例时遇到了麻烦。

我已经尝试过 0.10.0 和 0.14.0 版本。对于 0.10.0 版本,我使用现成的分发版,对于 0.14.0 版本,我按照 README 文件中的说明自行构建(我在这里遇到的一个问题是 gradle 下载的 scala- library不是依赖项中列出的一个,我必须手动下载 scala-library-2.11.8 并将其放在 lib/ 目录下)。

我使用了 hadoop 服务器版本 2.3.0(带有伪分布式单节点设置)和 3.2.1。我将 2.3.0 版本用作集群时遇到的一个问题是,从 apache hadoop 页面下载的版本是在 32 位模式下针对 java < 1.8 构建的,而 gobblin 库需要 java >= 1.8,然后我得到关于堆栈保护等一些奇怪的错误。

不过,对于我的伪分布式单节点设置,我更喜欢使用 hadoop 3.2.1。所以我去试试。使用 0.10.0 (gobblin-distribution-0.10.0.tar.gz) 的现成发行版,我按照此处的说明进行操作:https ://github.com/apache/incubator-gobblin/blob/gobblin_0.10.0/gobblin-docs /case-studies/Kafka-HDFS-Ingestion.md

然后我执行:

我在日志 gobblin-current.log 中得到了这个错误:

我尝试的一件事是更改 bin/gobblin-mapreduce.sh 并将作为 -libjars 传递到 hadoop jar 的 LIBJARS 添加到lib/ 文件夹下的所有jar,以便作业使用那里提供的 2.3.0 版本(即 hadoop -yarn-api-2.3.0 用于上述错误中的 URL 类)。在那次改变之后,我仍然得到同样的错误。

注意: 1. HADOOP_HOME 和 HADOOP_BIN_DIR 仅在调用 bin/gobblin-mapreduce.sh 之前设置,指向我的 hadoop 3.2.1 安装。

你对解决这个问题有什么建议吗?如果无法使用 hadoop 版本 3.2.1 进行集群设置,我可以使用什么 2.X 版本(不需要准备完整的开发环境来制作 java 1.8 64 位版本:))???

或者,你们中的任何人有没有成功尝试过页面中的示例,您能否列出使用的版本?

感谢您的时间和帮助!

0 投票
1 回答
109 浏览

gobblin - 如何独立调试 Gobblin?

如何使用 bin/gobblin-standalone.sh 命令从 IntelliJ IDE 以调试模式运行 Gobblin?

入门教程建议如何运行示例 Gobblin 作业,但不清楚如何调试它。

0 投票
1 回答
201 浏览

java - 地精:java.lang.ClassNotFoundException:org.apache.gobblin.source.extractor.extract.jdbc.MysqlSource

我正在尝试使用 gobblin 对 mysql 进行 hdfs 数据摄取。使用以下步骤运行 mysql-to-gobblin.pull 时:

1)启动hadoop:
sbin\start-all.cmd

2)启动mysql服务:
sudo service mysql start

3) 设置 GOBBLIN_WORK_DIR:
export GOBBLIN_WORK_DIR=/mnt/c/users/name/incubator-gobblin/GOBBLIN_WORK_DIR

4) 设置 GOBBLIN_JOB_CONFIG_DIR
export GOBBLIN_JOB_CONFIG_DIR=/mnt/c/users/name/incubator-gobblin/GOBBLIN_JOB_CONFIG_DIR

5) 独立启动
bin/gobblin.sh service standalone start --jars /mnt/C/Users/name/incubator-gobblin/build/gobblin-sql/libs/gobblin-sql-0.15.0.jar

给出以下错误

下面是 mysql-to-gobblin.pull 文件

我正在从/mnt/c/users/name/incubator-gobblin/build/gobblin-distribution/distributions/gobblin-dist目录运行此命令。

我需要在这里做哪些改变?我该如何解决?