问题标签 [sqoop2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
94 浏览

sqoop - Sqoop1.4.4和1.4.5的区别

我正在使用 Sqoop1.4.5。我需要 sqoop 1.4.4 和 sqoop 1.4.5 之间的区别。请帮助我了解这两个版本之间的特点。

0 投票
2 回答
2022 浏览

hadoop - Hive 和 Sqoop 分区

我有来自 Netezza 表的 sqoopd 数据,输出文件在 HDFS 中,但是一列是时间戳,我想将它作为日期列加载到我的配置单元表中。使用该列我想在日期创建分区。我怎样才能做到这一点?

示例:在 HDFS 中的数据就像 = 2013-07-30 11:08:36

在蜂巢中,我只想加载日期(2013-07-30)而不是时间戳。我想每天对该列进行分区。

如何动态地按列传递分区?

我尝试将数据加载到一个表中作为源。在最终表中,我将通过 (date_column=dynamic date) select * from table1 插入覆盖表分区

0 投票
0 回答
1067 浏览

mysql - sqoop 作业失败

您好我已经从 sql server 执行了 sqoop 导入。我可以卸载许多表,但该表抛出错误。

我正在使用 8 个映射器并使用 CDH 5.2。我的 7 个映射器已成功完成,但在日志中显示以下消息。

最后一个映射器运行了一段时间并且失败了。这是正在执行的以下查询。

0 投票
1 回答
430 浏览

postgresql-9.3 - 如何在目标数据库中指定 sqoop 导出列?

我想使用 sqoop (2) 导出从 avro 文件填充 postgres 表,但我在源中没有 id 字段,应该自动填充(串行类型),但我收到错误。

表 DDL:

avro 架构:

我使用的导出命令:

但我收到一个错误,我在 avro 架构中没有 id:

我尝试使用 --columns 参数指定目标列,但它不起作用。我如何加载上面的 avro 文件?

如果我从表中删除 id 字段,它会成功导出

提前致谢

0 投票
1 回答
1795 浏览

hadoop - 将复杂的存储过程迁移到 hive / Hbase 或任何其他 hadoop 生态系统

我们有如下的 ORACLE 存储过程:(伪代码)

创建存储过程(参数)

开始

选择报表;

调用光标,然后插入另一个表;

调用其他存储的程序;

结尾;

我们有很多像上面这样的存储过程。我们的数据已经增长,存储过程运行缓慢。我们希望将这些存储过程转换为 HIVE 或其他 hadoop 生态系统。请建议我们哪个 hadoop 生态系统支持这种情况。

0 投票
0 回答
413 浏览

hdfs - Apache Sqoop 中的容错

我想运行增量夜间作业,将 100 GB 的数据从 Oracle DataWarehouse 提取到 HDFS 中。处理后,需要将结果(几 GB)导出回 Oracle。

我们在 Amazon AWS 中运行 Hadoop,我们的数据仓库在本地。AWS 和本地之间的数据链路为 100 mbps,并且不可靠。

如果我使用 Sqoop-import 从 Oracle 导入数据,并且网络遇到间歇性中断,Sqoop 是如何处理的?另外,如果我导入(或导出)了 70% 的数据,而在剩余的 30% 期间,网络出现故障,会发生什么情况?

由于默认情况下 Sqoop 使用 JDBC,数据传输如何在网络级别发生?我们可以压缩传输中的数据吗?

0 投票
1 回答
4319 浏览

hadoop - Sqoop - 绑定到 YARN 队列

因此,使用 mapreduce v2,您可以使用绑定到某些 YARN 队列来管理资源和优先级。基本上通过使用

“hadoop jar /xyz.jar -D mapreduce.job.queuename=QUEUE1 /input /output”完美运行。

运行 sqoop 查询时,如何将 Yarn 队列绑定与 Sqoop 集成?

IE。sqoop import \ --connect 'jdbc://server' \ --target-dir \ 什么?

0 投票
2 回答
810 浏览

hadoop - Sqoop 推测执行

我在 Sqoop 中有以下问题?

  • 我很好奇我们是否可以为 sqoop 导入/导出作业设置推测执行关闭/打开。
  • 而且我们是否可以选择在 sqoop 导入/导出过程中设置减速器的数量。根据我的分析,sqoop 不需要任何减速器,但不确定我是否正确。请就此纠正我。
  • 我已经将 sqoop 与 mysql、oracle 以及除上述之外的其他数据库一起使用。

谢谢

0 投票
2 回答
4759 浏览

shell - shell 脚本中的 SQOOP 导出失败

我在shell脚本的帮助下将一个表从hive导出到mysql。下面是sqoop导出命令

上述命令在 CLI 中运行良好。但它不适用于 shell 脚本,它会生成以下警告和错误。

警告 :

错误:

我在 shell 脚本中的 Sqoop 命令将包含将被扩展的变量。

非常感谢任何帮助。我为此苦苦挣扎了很长时间...

0 投票
3 回答
333 浏览

couchbase - Couchbase 到本地文件导出

我需要将 couchbase 数据迁移到 HDFS,但 db 和 Hadoop 集群彼此无法访问。所以我不能以推荐的方式使用 sqoop。有没有办法使用 sqoop 将 couchbase 数据导入本地文件(而不是 HDFS)。如果可能的话,我可以这样做,然后使用 ftp 传输本地文件,然后再次使用 sqoop 将它们传输到 HDFS。

如果这是一个糟糕的解决方案,那么有没有其他方法可以传输本地文件中的所有 cb 数据。在这个 cb 集群上创建视图是一项艰巨的任务,我想避免使用它。