问题标签 [sqoop]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2574 问题

0 投票

2 回答

2546 浏览

hadoop - 如何创建从 hive 表到关系数据库的数据管道

背景：

我有一个包含日志信息的 Hive 表“日志”。该表每小时都会加载新的日志数据。我想对过去 2 天的日志进行一些快速分析，所以我想将最近 48 小时的数据提取到我的关系数据库中。

为了解决上述问题，我创建了一个由 HIVE SQL 查询加载的临时配置表。将新数据加载到临时表后，我使用 sqoop Query 将新日志加载到关系数据库中。

问题是 sqoop 正在将数据加载到 BATCH 中的关系数据库中。因此，在任何特定时间，我只有特定小时的部分日志。

这会导致错误的分析输出。

问题：

1）。如何使这个 Sqoop 数据加载具有事务性，即要么导出所有记录，要么不导出任何记录。

2）。在 Hive 表 -> 暂存表 -> 关系表的整个过程中构建这个数据管道的最佳方法是什么。

技术细节：

Hadoop 版本 1.0.4
Hive- 0.9.0
Sqoop - 1.4.2

2013-02-21T10:45:26.847

0 投票

2 回答

1504 浏览

sql-server - 从 SQL Server 导入时 sqoop 是否获取任何锁？

我正在使用 sqoop 从 SQL Server 导入 HDFS。我想知道我从中导入的表上是否获得了任何锁，如果是这样，有没有办法做相当于WITH(NOLOCK)？

sql-server hadoop locking hdfs sqoop

2013-02-21T17:54:26.880

0 投票

2 回答

1750 浏览

hadoop - 我可以使用 Sqoop 将数据导入为 RCFile 格式吗？

根据http://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764646

您可以导入以下两种文件格式之一的数据：分隔文本或 SequenceFiles。

但是 RCFile 呢？

是否可以使用 Sqoop 以 RCFile 格式将数据从 Oracle DB 导入 HDFS？

如果是，该怎么做？

hadoop format hdfs sqoop

2013-02-21T19:40:02.770

0 投票

1 回答

2918 浏览

hadoop - Sqoop 增量导入到 S3 Wrong FS 错误

在中使用--incremental append标志时sqoop import，作业将失败。

ERROR tool.ImportTool: Imported Failed: Wrong FS: s3n://<api_key>:<api_secret>@bucket/folder/

这是完整的命令：

sqoop import --connect jdbc:postgresql://someplace.net:12345/db --warehouse-dir s3n://<key>:<private>@bucket/folder/ --table my_table --hive-drop-import-delims --escaped-by "\\" --username root --password safepass -m 2 --split-by id --incremental append --check-column id

--incremental' and没有--check-column的完全相同的命令可以正常工作，并按预期上传到正确的 s3 目录。我希望能够运行增量导入并将其上传到 s3。

我正在使用 Sqoop 1.4.1-cdh4.1.3

完整输出：

hadoop cloudera sqoop

2013-02-22T20:52:56.600

0 投票

2 回答

312 浏览

java - 如何创建和配置 Hadoop 客户端脚本？

有一个正在运行的 Hadoop 集群。我已经下载了 Hadoop 发行版（在本例中为 0.20.205.0）

我需要创建一些能够在该集群上调用 Hadoop 的 shell 脚本（bash/zsh/perl）。理想情况下，它应该能够以这种方式从 Sqoop 脚本中调用：

如何调用 Hadoop 并提供 namenode/jobtracker URI？如何为 Sqoop 和 DB 驱动程序提供额外的库？

java shell hadoop sqoop

2013-02-26T23:06:33.200

0 投票

2 回答

451 浏览

hadoop - Sqoop 将零小数导入为 0E-22

当我从我的 MSSQL 数据库中使用 hadoop 和 sqoop 导入一个表并且该表具有十进制列时，任何为零的列（例如 0.000000000000..）都保存为“0E-22”。

这非常痛苦，因为在我的 Map 或 Reduce 中将值转换为小数时会引发异常。因此，我要么必须将列导出为 varchar，要么在尝试强制转换之前进行检查。两者都不理想。

有没有人遇到过这种情况并得到解决？

谢谢

hadoop hive sqoop

2013-03-06T11:55:59.737

0 投票

1 回答

3296 浏览

database - 使用 Sqoop 从 Sybase 导入数据的问题

我正在尝试使用 Sqoop 从 Sybase 导入数据。从日志中我可以说我已经成功地进行了一次连接。但是我的工作没有给我一些 Sybase 的 Sql 异常。我主要不是在 Sybase 上工作，所以无法挖掘出这个错误。我的资源中只有一个位于 Sybase。

我使用了以下命令：

错误片段：

database jdbc hadoop sybase sqoop

2013-03-14T14:07:32.430

0 投票

1 回答

9780 浏览

hadoop - sqoop库目录在哪里？

要在 Sqoop 中安装 MySQL 连接器，我需要将 jar 文件放在 Sqoop 目录中，但我找不到它（它不在/usr/lib/sqoop. 我在多台机器上安装了 Sqoop 和 Cloudera。

我在哪里可以找到其中一台机器上的 Sqoop 目录？

hadoop cloudera sqoop

2013-03-19T14:28:26.883

0 投票

1 回答

2096 浏览

hadoop - sqoop 导入大量 NULL 行

我正在将一个表从 mysql 导入到 hive。该表有2115584行。在导入期间我看到

但是当我count(*)在导入的表上做 a 时，我看到它有49262250行。到底是怎么回事？

更新：指定时导入正常工作--direct。

hadoop hive sqoop

2013-03-20T18:47:34.450

0 投票

5 回答

13938 浏览

apache - Sqoop - 无法找到或加载主类 org.apache.sqoop.Sqoop

我安装了Hadoop、Hive、HBase、Sqoop并将它们添加到 PATH 中。

当我尝试执行sqoop命令时，出现此错误：

开发环境：

操作系统：Ubuntu 12.04 64 位

Hadoop版本：1.0.4

蜂巢版本：0.9.0

Hbase 版本：0.94.5

Sqoop 版本：1.4.3

apache hadoop hbase hive sqoop

2013-03-20T20:49:10.007

1 2 3 4 5 6 7 8 9 10

问题标签 [sqoop]

Reference