问题标签 [sqoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何创建从 hive 表到关系数据库的数据管道
背景 :
我有一个包含日志信息的 Hive 表“日志”。该表每小时都会加载新的日志数据。我想对过去 2 天的日志进行一些快速分析,所以我想将最近 48 小时的数据提取到我的关系数据库中。
为了解决上述问题,我创建了一个由 HIVE SQL 查询加载的临时配置表。将新数据加载到临时表后,我使用 sqoop Query 将新日志加载到关系数据库中。
问题是 sqoop 正在将数据加载到 BATCH 中的关系数据库中。因此,在任何特定时间,我只有特定小时的部分日志。
这会导致错误的分析输出。
问题:
1)。如何使这个 Sqoop 数据加载具有事务性,即要么导出所有记录,要么不导出任何记录。
2)。在 Hive 表 -> 暂存表 -> 关系表的整个过程中构建这个数据管道的最佳方法是什么。
技术细节:
Hadoop 版本 1.0.4
Hive- 0.9.0
Sqoop - 1.4.2
sql-server - 从 SQL Server 导入时 sqoop 是否获取任何锁?
我正在使用 sqoop 从 SQL Server 导入 HDFS。我想知道我从中导入的表上是否获得了任何锁,如果是这样,有没有办法做相当于WITH(NOLOCK)
?
hadoop - 我可以使用 Sqoop 将数据导入为 RCFile 格式吗?
根据http://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764646
您可以导入以下两种文件格式之一的数据:分隔文本或 SequenceFiles。
但是 RCFile 呢?
是否可以使用 Sqoop 以 RCFile 格式将数据从 Oracle DB 导入 HDFS?
如果是,该怎么做?
hadoop - Sqoop 增量导入到 S3 Wrong FS 错误
在 中使用--incremental append
标志时sqoop import
,作业将失败。
ERROR tool.ImportTool: Imported Failed: Wrong FS: s3n://<api_key>:<api_secret>@bucket/folder/
这是完整的命令:
sqoop import --connect jdbc:postgresql://someplace.net:12345/db --warehouse-dir s3n://<key>:<private>@bucket/folder/ --table my_table --hive-drop-import-delims --escaped-by "\\" --username root --password safepass -m 2 --split-by id --incremental append --check-column id
--incremental' and
没有--check-column的完全相同的命令可以正常工作,并按预期上传到正确的 s3 目录。我希望能够运行增量导入并将其上传到 s3。
我正在使用 Sqoop 1.4.1-cdh4.1.3
完整输出:
java - 如何创建和配置 Hadoop 客户端脚本?
有一个正在运行的 Hadoop 集群。我已经下载了 Hadoop 发行版(在本例中为 0.20.205.0)
我需要创建一些能够在该集群上调用 Hadoop 的 shell 脚本(bash/zsh/perl)。理想情况下,它应该能够以这种方式从 Sqoop 脚本中调用:
如何调用 Hadoop 并提供 namenode/jobtracker URI?如何为 Sqoop 和 DB 驱动程序提供额外的库?
hadoop - Sqoop 将零小数导入为 0E-22
当我从我的 MSSQL 数据库中使用 hadoop 和 sqoop 导入一个表并且该表具有十进制列时,任何为零的列(例如 0.000000000000..)都保存为“0E-22”。
这非常痛苦,因为在我的 Map 或 Reduce 中将值转换为小数时会引发异常。因此,我要么必须将列导出为 varchar,要么在尝试强制转换之前进行检查。两者都不理想。
有没有人遇到过这种情况并得到解决?
谢谢
database - 使用 Sqoop 从 Sybase 导入数据的问题
我正在尝试使用 Sqoop 从 Sybase 导入数据。从日志中我可以说我已经成功地进行了一次连接。但是我的工作没有给我一些 Sybase 的 Sql 异常。我主要不是在 Sybase 上工作,所以无法挖掘出这个错误。我的资源中只有一个位于 Sybase。
我使用了以下命令:
错误片段:
hadoop - sqoop库目录在哪里?
要在 Sqoop 中安装 MySQL 连接器,我需要将 jar 文件放在 Sqoop 目录中,但我找不到它(它不在/usr/lib/sqoop
. 我在多台机器上安装了 Sqoop 和 Cloudera。
我在哪里可以找到其中一台机器上的 Sqoop 目录?
hadoop - sqoop 导入大量 NULL 行
我正在将一个表从 mysql 导入到 hive。该表有2115584
行。在导入期间我看到
但是当我count(*)
在导入的表上做 a 时,我看到它有49262250
行。到底是怎么回事?
更新:指定时导入正常工作--direct
。
apache - Sqoop - 无法找到或加载主类 org.apache.sqoop.Sqoop
我安装了Hadoop、Hive、HBase、Sqoop并将它们添加到 PATH 中。
当我尝试执行sqoop
命令时,出现此错误:
开发环境:
操作系统:Ubuntu 12.04 64 位
Hadoop版本:1.0.4
蜂巢版本:0.9.0
Hbase 版本:0.94.5
Sqoop 版本:1.4.3