问题标签 [sqoop2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
679 浏览

hadoop - Kite SDK 数据集和 Hive Table 的区别

我正在阅读 Kite SDK 的文档。我无法理解 Kite 数据集和 Hive 表之间的区别

例如,如果要在 Hive 中创建产品数据集,则可以使用此 URI。

dataset:hive:products

这是否意味着,使用 hive cli 我们可以访问同一个表products

0 投票
1 回答
201 浏览

derby - Sqoop 2 重新启动,没有更多工作

今天我重新启动了 mysqoop 服务器,现在我所有的工作和链接似乎都消失了。Sqoop 正在使用 derby 数据库:

org.apache.sqoop.repository.jdbc.url=jdbc:derby:@BASEDIR@/repository/db;create=true

你有什么线索我可以把它们放回去吗?

0 投票
1 回答
682 浏览

mapreduce - 执行 sqoop 作业时出现运行时异常

我正在尝试在 biginsights 中执行 sqoop 作业。我正在将数据从 oracle db 导入 hdfs。下面是 sqoop 命令,它开始执行 mapper 并在一段时间后停止。

以下是错误:

请帮我解决这个问题。提前致谢。

0 投票
1 回答
350 浏览

sqoop2 - 使用 Sqoop2 增量导入

我想将 MySQL 表中的数据导入 HDFS。我已经配置了所有东西,并且能够在 sqoop-shell 中创建简单的作业来复制数据。但是我想每次只复制新记录,但我不知道如何实现这一点。当我创建作业时,有一个名为“检查列”的参数,并且我有像 ID 或 eventTimestamp 这样的列似乎适合在那里。但是,在这种情况下,我也应该输入“最后一个值”。我是否必须自己管理最后一个价值,并且每次都用新的“最后一个价值”创造新工作?如果只使用一次然后必须重新创建,为什么在这种情况下创建作业?Sqoop 是否不可能通过每次存储新的“最后一个值”并仅导入新记录来管理这一点?此外,为什么当我输入任何内容时出现此错误消息“ last value": "输入的大小超出了此输入字段的允许范围。最大允许尺寸为 -1"?

0 投票
3 回答
801 浏览

mysql - 如何将 MySQL 数据导入 Hadoop 文件系统?

在我的系统中,我在 Mysql 中有数据库。我想将其导入 hadoop 文件系统。我发现了一些关于 Sqoop 的东西,但我没有得到命令去做。

0 投票
0 回答
258 浏览

sqoop2 - Sqoop 在满载时读取 0 条记录

问题描述:我试图对数据进行sqoop,但sqoop返回零记录而没有任何错误。但是当我尝试使用某个限制检索记录时,它会获取数据,但是一旦我进一步使用更大的限制,它就不会获取任何记录。

0 投票
1 回答
715 浏览

sqoop2 - sqoop import --validate 记录行数验证结果

sqoop import --connect abc.com --table test --validate

在执行上述导入语句时,

sqoop import --validate 在哪里记录行数验证结果?

在日志文件夹中?

0 投票
1 回答
1759 浏览

sqoop2 - Sqoop 与 Sqoop2 命令

迁移到 Sqoop2 的优势之一是我们不与客户端共享数据库凭据。

现在,当我们执行 Sqoop 命令时,它们如下所示:

sqoop 导入 --connect ... --username ... --table ...

当我们升级到 Sqoop2 时,我们也在执行相同的命令,除了连接字符串将指向 Sqoop2 服务器而不是实际的 RDBMS(参与传输)并且凭据将是 Sqoop2 服务器。

在这里,我们还与所有客户端共享 Sqoop2 服务器的凭据。这不违反我们创建 Sqoop2 的基本原则吗?

0 投票
1 回答
419 浏览

oozie - Oozie Shared Lib:放置罐子的位置

我已经安装了 Cloudera CDH QuickStart VM 5.5,并且正在我的 Oozie 工作流程中运行 Sqoop 操作。我遇到了一个错误,说缺少 MySQL JDBC 驱动程序,我在这里遇到了一个 SO 答案,说 mysql-connector-java.jar 应该放在 Oozie 的 HDFS 共享库路径中,sqoop路径下。

然而,当我浏览 Oozie 的 HDFS 共享库路径时,我注意到有两个sqoop子目录用于复制 jar。

除了sqoop, hive, pig,distcpmapreduce-streaming路径也存在于lib和上lib/lib_20151118030154

所以问题是:我应该把连接器罐放在哪里:第一个还是第二个?

sqoop这两条路径与, hive, pig,distcpmapreduce-streamingOozie的 jars 有什么区别(或目的不同) ?

0 投票
1 回答
36 浏览

maven - 编程 Sqoop:v1.4.x 或 v1.99.x

我正在使用 Cloudera Quickstart VM CDH 5.5.0,并且正在尝试在 Maven 项目中为 Sqoop 执行一些自定义 Java 代码。但是,我对 Maven 依赖项的两个版本有点困惑:

当我尝试挖掘 Sqoop 的文档时,似乎 v1.99.x 与Sqoop2相关。根据Cloudera here的说法,目前还不鼓励使用 Sqoop2 。

此外,我只能在使用 v1.99.x 依赖项时获取 jars,而不能在 v1.4.x 时获取。

那么,如果我想做 Sqoop 编程,我应该使用哪一个呢?两个版本有什么区别?