问题标签 [sqoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sqoop - Sqoop1.4.4和1.4.5的区别
我正在使用 Sqoop1.4.5。我需要 sqoop 1.4.4 和 sqoop 1.4.5 之间的区别。请帮助我了解这两个版本之间的特点。
hadoop - Hive 和 Sqoop 分区
我有来自 Netezza 表的 sqoopd 数据,输出文件在 HDFS 中,但是一列是时间戳,我想将它作为日期列加载到我的配置单元表中。使用该列我想在日期创建分区。我怎样才能做到这一点?
示例:在 HDFS 中的数据就像 = 2013-07-30 11:08:36
在蜂巢中,我只想加载日期(2013-07-30)而不是时间戳。我想每天对该列进行分区。
如何动态地按列传递分区?
我尝试将数据加载到一个表中作为源。在最终表中,我将通过 (date_column=dynamic date) select * from table1 插入覆盖表分区
mysql - sqoop 作业失败
您好我已经从 sql server 执行了 sqoop 导入。我可以卸载许多表,但该表抛出错误。
我正在使用 8 个映射器并使用 CDH 5.2。我的 7 个映射器已成功完成,但在日志中显示以下消息。
最后一个映射器运行了一段时间并且失败了。这是正在执行的以下查询。
postgresql-9.3 - 如何在目标数据库中指定 sqoop 导出列?
我想使用 sqoop (2) 导出从 avro 文件填充 postgres 表,但我在源中没有 id 字段,应该自动填充(串行类型),但我收到错误。
表 DDL:
avro 架构:
我使用的导出命令:
但我收到一个错误,我在 avro 架构中没有 id:
我尝试使用 --columns 参数指定目标列,但它不起作用。我如何加载上面的 avro 文件?
如果我从表中删除 id 字段,它会成功导出
提前致谢
hadoop - 将复杂的存储过程迁移到 hive / Hbase 或任何其他 hadoop 生态系统
我们有如下的 ORACLE 存储过程:(伪代码)
创建存储过程(参数)
开始
选择报表;
调用光标,然后插入另一个表;
调用其他存储的程序;
结尾;
我们有很多像上面这样的存储过程。我们的数据已经增长,存储过程运行缓慢。我们希望将这些存储过程转换为 HIVE 或其他 hadoop 生态系统。请建议我们哪个 hadoop 生态系统支持这种情况。
hdfs - Apache Sqoop 中的容错
我想运行增量夜间作业,将 100 GB 的数据从 Oracle DataWarehouse 提取到 HDFS 中。处理后,需要将结果(几 GB)导出回 Oracle。
我们在 Amazon AWS 中运行 Hadoop,我们的数据仓库在本地。AWS 和本地之间的数据链路为 100 mbps,并且不可靠。
如果我使用 Sqoop-import 从 Oracle 导入数据,并且网络遇到间歇性中断,Sqoop 是如何处理的?另外,如果我导入(或导出)了 70% 的数据,而在剩余的 30% 期间,网络出现故障,会发生什么情况?
由于默认情况下 Sqoop 使用 JDBC,数据传输如何在网络级别发生?我们可以压缩传输中的数据吗?
hadoop - Sqoop - 绑定到 YARN 队列
因此,使用 mapreduce v2,您可以使用绑定到某些 YARN 队列来管理资源和优先级。基本上通过使用
“hadoop jar /xyz.jar -D mapreduce.job.queuename=QUEUE1 /input /output”完美运行。
运行 sqoop 查询时,如何将 Yarn 队列绑定与 Sqoop 集成?
IE。sqoop import \ --connect 'jdbc://server' \ --target-dir \ 什么?
hadoop - Sqoop 推测执行
我在 Sqoop 中有以下问题?
- 我很好奇我们是否可以为 sqoop 导入/导出作业设置推测执行关闭/打开。
- 而且我们是否可以选择在 sqoop 导入/导出过程中设置减速器的数量。根据我的分析,sqoop 不需要任何减速器,但不确定我是否正确。请就此纠正我。
- 我已经将 sqoop 与 mysql、oracle 以及除上述之外的其他数据库一起使用。
谢谢
shell - shell 脚本中的 SQOOP 导出失败
我在shell脚本的帮助下将一个表从hive导出到mysql。下面是sqoop导出命令
上述命令在 CLI 中运行良好。但它不适用于 shell 脚本,它会生成以下警告和错误。
警告 :
错误:
我在 shell 脚本中的 Sqoop 命令将包含将被扩展的变量。
非常感谢任何帮助。我为此苦苦挣扎了很长时间...
couchbase - Couchbase 到本地文件导出
我需要将 couchbase 数据迁移到 HDFS,但 db 和 Hadoop 集群彼此无法访问。所以我不能以推荐的方式使用 sqoop。有没有办法使用 sqoop 将 couchbase 数据导入本地文件(而不是 HDFS)。如果可能的话,我可以这样做,然后使用 ftp 传输本地文件,然后再次使用 sqoop 将它们传输到 HDFS。
如果这是一个糟糕的解决方案,那么有没有其他方法可以传输本地文件中的所有 cb 数据。在这个 cb 集群上创建视图是一项艰巨的任务,我想避免使用它。