问题标签 [sqoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2546 浏览

hadoop - 如何创建从 hive 表到关系数据库的数据管道

背景 :

我有一个包含日志信息的 Hive 表“日志”。该表每小时都​​会加载新的日志数据。我想对过去 2 天的日志进行一些快速分析,所以我想将最近 48 小时的数据提取到我的关系数据库中。

为了解决上述问题,我创建了一个由 HIVE SQL 查询加载的临时配置表。将新数据加载到临时表后,我使用 sqoop Query 将新日志加载到关系数据库中。

问题是 sqoop 正在将数据加载到 BATCH 中的关系数据库中。因此,在任何特定时间,我只有特定小时的部分日志。

这会导致错误的分析输出。

问题:

1)。如何使这个 Sqoop 数据加载具有事务性,即要么导出所有记录,要么不导出任何记录。

2)。在 Hive 表 -> 暂存表 -> 关系表的整个过程中构建这个数据管道的最佳方法是什么。

技术细节:

Hadoop 版本 1.0.4
Hive- 0.9.0
Sqoop - 1.4.2

0 投票
2 回答
1504 浏览

sql-server - 从 SQL Server 导入时 sqoop 是否获取任何锁?

我正在使用 sqoop 从 SQL Server 导入 HDFS。我想知道我从中导入的表上是否获得了任何锁,如果是这样,有没有办法做相当于WITH(NOLOCK)

0 投票
2 回答
1750 浏览

hadoop - 我可以使用 Sqoop 将数据导入为 RCFile 格式吗?

根据http://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764646

您可以导入以下两种文件格式之一的数据:分隔文本或 SequenceFiles。

但是 RCFile 呢?

是否可以使用 Sqoop 以 RCFile 格式将数据从 Oracle DB 导入 HDFS?

如果是,该怎么做?

0 投票
1 回答
2918 浏览

hadoop - Sqoop 增量导入到 S3 Wrong FS 错误

在 中使用--incremental append标志时sqoop import,作业将失败。

ERROR tool.ImportTool: Imported Failed: Wrong FS: s3n://<api_key>:<api_secret>@bucket/folder/

这是完整的命令:

sqoop import --connect jdbc:postgresql://someplace.net:12345/db --warehouse-dir s3n://<key>:<private>@bucket/folder/ --table my_table --hive-drop-import-delims --escaped-by "\\" --username root --password safepass -m 2 --split-by id --incremental append --check-column id

--incremental' and没有--check-column的完全相同的命令可以正常工作,并按预期上传到正确的 s3 目录。我希望能够运行增量导入并将其上传到 s3。

我正在使用 Sqoop 1.4.1-cdh4.1.3

完整输出:

0 投票
2 回答
312 浏览

java - 如何创建和配置 Hadoop 客户端脚本?

有一个正在运行的 Hadoop 集群。我已经下载了 Hadoop 发行版(在本例中为 0.20.205.0)

我需要创建一些能够在该集群上调用 Hadoop 的 shell 脚本(bash/zsh/perl)。理想情况下,它应该能够以这种方式从 Sqoop 脚本中调用:

如何调用 Hadoop 并提供 namenode/jobtracker URI?如何为 Sqoop 和 DB 驱动程序提供额外的库?

0 投票
2 回答
451 浏览

hadoop - Sqoop 将零小数导入为 0E-22

当我从我的 MSSQL 数据库中使用 hadoop 和 sqoop 导入一个表并且该表具有十进制列时,任何为零的列(例如 0.000000000000..)都保存为“0E-22”。

这非常痛苦,因为在我的 Map 或 Reduce 中将值转换为小数时会引发异常。因此,我要么必须将列导出为 varchar,要么在尝试强制转换之前进行检查。两者都不理想。

有没有人遇到过这种情况并得到解决?

谢谢

0 投票
1 回答
3296 浏览

database - 使用 Sqoop 从 Sybase 导入数据的问题

我正在尝试使用 Sqoop 从 Sybase 导入数据。从日志中我可以说我已经成功地进行了一次连接。但是我的工作没有给我一些 Sybase 的 Sql 异常。我主要不是在 Sybase 上工作,所以无法挖掘出这个错误。我的资源中只有一个位于 Sybase。

我使用了以下命令:

错误片段:

0 投票
1 回答
9780 浏览

hadoop - sqoop库目录在哪里?

要在 Sqoop 中安装 MySQL 连接器,我需要将 jar 文件放在 Sqoop 目录中,但我找不到它(它不在/usr/lib/sqoop. 我在多台机器上安装了 Sqoop 和 Cloudera。

我在哪里可以找到其中一台机器上的 Sqoop 目录?

0 投票
1 回答
2096 浏览

hadoop - sqoop 导入大量 NULL 行

我正在将一个表从 mysql 导入到 hive。该表有2115584行。在导入期间我看到

但是当我count(*)在导入的表上做 a 时,我看到它有49262250行。到底是怎么回事?

更新:指定时导入正常工作--direct

0 投票
5 回答
13938 浏览

apache - Sqoop - 无法找到或加载主类 org.apache.sqoop.Sqoop

我安装了HadoopHiveHBaseSqoop并将它们添加到 PATH 中。

当我尝试执行sqoop命令时,出现此错误:

开发环境:

操作系统:Ubuntu 12.04 64 位

Hadoop版本:1.0.4

蜂巢版本:0.9.0

Hbase 版本:0.94.5

Sqoop 版本:1.4.3