问题标签 [sqoop2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3832 浏览

sqoop2 - 从 Oracle 加载表到 Hive,日期和时间戳转换为字符串

我在 Sqoop 手册中注意到了这一点:

24.5。Hive 中的模式定义

Hive 用户会注意到 SQL 类型和 Hive 类型之间没有一对一的映射。通常,没有直接映射的 SQL 类型(例如,DATE、TIME 和 TIMESTAMP)将被强制转换为 Hive 中的 STRING。NUMERIC 和 DECIMAL SQL 类型将被强制为 DOUBLE。在这些情况下,Sqoop 将在其日志消息中发出警告,通知您精度损失。

而且我知道 Sqoop 可以使用指定列类型映射

  • --map-column-java
  • --map-column-hive

但我的情况是我需要一个通用类型到类型的映射,从 RDBMS 类型到 HIVE 类型的映射,这需要将日期或日期时间转换为日期或时间戳。

是否存在解决方案?

0 投票
1 回答
928 浏览

hadoop - 如何在使用 sqoop 摄取数据时屏蔽数据

我正在使用 sqoop 提取数据。有什么方法可以屏蔽 sqoop 中的任何特定列或修改每个单元格。例如:

我希望数据在摄取后是这样的:

或者

在 sqoop 中是否可能?我试图找出但无法获得太多信息。

0 投票
1 回答
980 浏览

hiveql - 如果列具有值数组,则 Sqoop 从 Hive 导出到 Netezza

我试图运行 sqoop 导出以将 Hive 表行加载到 Netezza 表中。问题是我有几列包含值数组,我在 Netezza 中为这些列数据类型创建 DDL 作为 varchar(200) 并运行 sqoop 作业但由于坏行达到限制,我收到错误消息。以下是我的 Sqoop 工作:

sqoop 导出 --options-file --direct --connect jdbc:netezza://10.90.21.140:5480/analytics --username sat144 --P --table analytics_stage --export-dir /home/dir1/analytics/data --fields-terminated-by '~' --input-null-string '\N' --input-null-non-string '\N' -m 1 -max-errors #0

下面是我的 Netezza DDL:
CREATE TABLE analytics_stage(id varchar(30)、name varchar(60)、dept nvarchar(99)、dept_id nvarchar(200));

我的 Hive 表列值如下

第 1 行:20134(id) sat(name) Data_Group(dept) [121,103,201,212,310] (dept_id)

谁可以帮我这个事?如果列在 Hive 表中有负值和值数组,那么 Netezza 中建议的数据类型是什么?

Sqoop 错误日志如下

16/05/09 15:46:49 INFO mapreduce.Job:map 50% reduce 0% 16/05/09 15:46:55 INFO mapreduce.Job:任务 ID:attempt_1460986388847_0849_m_000000_1,状态:FAILED 错误:java.io。 IOException:org.netezza.error.NzSQLException:错误:外部表:错误输入行数达到 maxerrors 限制

原因:org.netezza.error.NzSQLException:错误:外部表:错误输入行数达到最大错误限制

0 投票
1 回答
972 浏览

java - 在远程客户端机器上运行 sqoop

我正在尝试使用 java 从客户端计算机运行 sqoop 导入。我将关注 sqoop 客户端 api 文件。

我有以下查询

  1. 我运行客户端 java 类的机器不需要安装 hadoop
  2. 我在这个系统上安装了cloudera 5.5.1,并且安装了sqoop,我可以使用它吗

如果我问愚蠢的问题,请原谅我。我已经从 cli 实现了 sqoop,但在远程访问方面遇到了困难

0 投票
1 回答
336 浏览

hadoop - 即使在 MRv1 上运行时,sqoop 也会尝试连接到纱线

我有一个 cloudera 集群版本 5.3.x,并且在使用以下命令运行 sqoop 客户端时

它在以下语句处循环。即使我们的集群上只有 MRv1,它似乎也在尝试连接到 yarn。

我尝试了以下内容,该内容记录在 cloudera 上,但仍然没有任何变化。

我可能应该提一下,我在该 VM 上的 /etc/sqoop2 位置没有看到 tomcat-conf.mr1 文件。

0 投票
1 回答
216 浏览

activemq - 将数据从 hdfs 移动到 sql

我正在测试我的设置,我需要将 hdfs 中的数据移动到 sql DB,并且在生成数据时也是如此。我的意思是.. 一旦 mapreduce 作业完成,它将发送一条 ActivMQ 消息。一旦我使用 Sqoop 收到 ActivMQ 消息,我需要将其自动移动到 sql。有人可以帮助如何实现这一目标。

有人可以让我知道 MQ 和 Sqoop 是否一起工作..?

谢谢你..

0 投票
0 回答
287 浏览

hadoop - Sqoop 导入计数不同(源与目标)

当sqooping(导入)时,如果源表正在更新,那么sqooped输出行计数是否是t=sqoop_start或t=sqoop_end时的源表计数

我正在运行 shell 脚本来验证数据是否正确地从源表中提取。但我发现其中一张表的差异有时是 +ve/-ve

0 投票
1 回答
298 浏览

hadoop - 如何使datanode能够访问其私有网络之外的访问?

在我的集群 CDH5.4 中,我有一个位于私有和公共网络上的网关节点。集群位于专用网络上。我想使用 sqoop 从公共网络上的数据库服务器中获取数据。当我发出命令时,地图任务失败

错误:java.lang.RuntimeException:java.lang.RuntimeException:java.sql.SQLRecoverableException:IO 错误:指定了未知主机

我了解集群节点无法访问公共网络上的数据库服务器。

鉴于这种公私网络架构在业界相当普遍,那么让datanodes访问公网服务器的正确方法是什么?

任何帮助都非常感谢....

网关节点

数据节点

0 投票
1 回答
91 浏览

java - 如何在 Eclipse 中设置 sqoop2 应用程序项目?

我正在参考Sqoop Client API Guide。在指南里面,它说:

它需要 Sqoop 客户端 JAR 及其依赖项。

然后它列出了 Maven 依赖项:

这是否意味着我需要使用上述依赖项设置一个 Maven 项目?如果没有,我在哪里可以找到并下载 Sqoop 客户端 JAR 及其依赖项?

非常感谢!

0 投票
1 回答
268 浏览

apache - 如何使用 SQOOP 加载和更新变化的数据?

我尝试使用增量导入,但我必须指定appendlastmodified。我需要所有更改,包括修改记录和新记录。