问题标签 [sqoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
920 浏览

hadoop - sqoop 导入 hbase 没有写入记录

我目前正在使用 Cloudera CDH4 VM。

一切似乎都在工作。下面是我的输出。导入声称成功,但没有写入任何记录。我已经附上了导入的输出。[

0 投票
1 回答
2471 浏览

java - 用 Sqoop 导出 Hive 表,有些行没有分隔

我有一个使用 Hive 生成​​的表(在 Amazon Elastic MapReduce JobFlow 上)。我可以看到数据位于hdfs:///mnt/hive_081/warehouse/[table name].

我已经将 Sqoop 包装在一个 jar 中(没有更改任何内容),并将其上传到主节点进行测试。

我这样运行我的 sqoop jar:

其中 $ARGS 是(省略了敏感的 mysql 标志):

我正在对我模拟的十行数据进行测试。没有空值。每一行都是唯一的,在所有列中重复相同的数字。当我执行命令时,我得到很多

我每次都会收到相同的四行(共 10 行)的此消息(忽略负值,这些是 TINYINT 的列,不适合该数字)。

您可以看到行中前两个值之间的空间要小得多。这是我的问题吗?什么会导致这个?仅供参考,如果我将数据文件从 HDFS 复制到本地 FS,并指向它,我不会收到此消息 - 而且数据也没有到达其目的地:/。无论如何,我正在尝试自动化多步骤过程,因此我希望能够直接对 HDFS 数据进行操作,而无需复制任何内容。

非常感谢任何建议!

更新:当我使用逗号作为分隔符时也会发生这种情况。观察到相同的四行。当我将 Hive 表限制为仅一行(而不是先前测试中的错误行之一)时,会发生相同的错误。

0 投票
3 回答
2075 浏览

mysql - 如何使用 Sqoop 从 MySQL 增量导入到 Hive?

我可以使用 Sqoop 成功地从 MySQL 增量导入到 HDFS

以日志消息结束,例如

并且检查作业会发现 incremental.last.value 已正确更新。

如果我尝试相同的过程,但将“--hive-import”添加到我的作业定义中,它将成功执行,但不会更新incremental.last.value。

这是一个错误吗?预期行为?有没有人有从 MySQL 增量导入数据并通过 Hive 提供数据的程序?

我基本上希望我的 Hadoop 集群成为我的 MySQL 数据库的读取从属,以便快速分析。如果除了 Hive 之外还有其他解决方案(Pig 会很好),我也很想听听。

0 投票
1 回答
3236 浏览

sql-server - Sqoop 连接到 MS SQL 超时

我正在尝试使用 Sqoop 连接到 Microsoft SQL Server。我按照Sqoop ConnectorJDBC Driver的说明安装了 Microsoft 的 JDBC 驱动程序。接下来我尝试列出服务器上的数据库。我尝试了以下命令:

这些命令中的每一个都会产生相同的错误消息。

我已经使用 Microsoft SQL Server Management Studio 连接到数据库,以确保数据库正在运行并且主机/用户名/密码都正确。此外,我已确保端口已打开,并且 MSSQL 位于另一侧,如下所示。

关于我应该从这里去哪里的任何建议?我无法找到有关此错误的任何文档。谢谢

我目前正在尝试使用 FreeTDS 中的 OSQL 来验证 SQL 服务器是否可以访问。将用我的发现更新这篇文章。

0 投票
1 回答
156 浏览

sqoop - Sqoop 并行连接不同的 MySQL 数据库

Sqoop 可以与不同主机中的许多不同 Mysql 数据库并行连接吗?

0 投票
1 回答
3966 浏览

hadoop - Sqoop 与 hadoop 集成,用于使用 oraoop 导入 Oracle 数据

我一直在尝试使用带有 oraoop 的 scoop 将数据从 oracle Express edition 11g R2 导入到 hadoop。

我安装了 CDH sqoop 并尝试集成已经运行的 apache hadoop。

我发现 oraoop 使用正确,但我在导入时遇到以下问题。我也尝试使用 apache sqoop 和 apache hadoop,但仍然遇到以下问题。网络搜索也建议使用 CDH hadoop 而不是 apache Hadoop。

**

线程“main”java.lang.IncompatibleClassChangeError 中的异常:找到类 org.apache.hadoop.mapreduce.JobContext,但在 com.quest.oraoop.OraOopDataDrivenDBInputFormat.getDesiredNumberOfMappers(OraOopDataDrivenDBInputFormat.java:201) 处需要接口。 oraoop.OraOopDataDrivenDBInputFormat.getSplits(OraOopDataDrivenDBInputFormat.java:51)

**

总结一下,

CDH sqoop + Apache Hadoop - 上述数据导入失败

异常 Apache Sqoop + Apache hadoop - 数据导入失败,出现上述异常

CDH Sqoop + CDH Hadoop - 这是正确的组合吗?

有什么建议么?我不确定我是否走对了路。请帮忙。

0 投票
2 回答
4203 浏览

hadoop - Couchbase/hadoop 连接器:sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类”

我的配置:

  • CouchBase 服务器 2.0
  • Sqoop 1.4.2(为 hadoop 版本 2.0.0 编译)
  • 堆栈 Hadoop CDH4.1.2

我想使用 CouchBase/Hadoop 连接器(http://www.couchbase.com/develop/connectors/hadoop),但是当我启动导入时出现以下错误:

有没有人使用过具有相同配置的连接器并成功使其工作?

谢谢你的帮助!

玛德琳

0 投票
2 回答
1018 浏览

oracle - Sqoop 访问特定的 Oracle Schema

我有一个 Oracle 数据库,其中包含许多模式、一个主模式和一堆子模式。我的主模式具有特权,因此它可以在任何子级中创建/销毁/访问表。

我的问题是,我正在 Sqoop 中的主模式上做一个列表表,我看到所有子表都包含在结果中。

有没有办法区分这些表属于哪个模式?我有一些重叠的名称,目前无法判断哪个表在哪里。

0 投票
1 回答
670 浏览

hadoop - Sqoop 导入后无法查询 Hive 表

我通过 sqoop 将几个 oracle 数据库表导入 hive。该命令看起来像这样:

我使用的是嵌入式 Metastore(至少我是这么认为的。在这方面我没有更改默认配置)。当我在 HIVE 中执行 SHOW TABLES 时,导入的表不会显示,但我为通过命令行测试创建的一些表会显​​示。这些表都在 hdfs 上的同一个仓库目录中。似乎 sqoop 导入没有使用相同的元存储。

但它在哪里?使用命令行查询时如何切换到它?

谢谢

0 投票
3 回答
2019 浏览

json - Sqoop HDFS 到 Couchbase:json 文件格式

我正在尝试将数据从 HDFS 导出到 Couchbase,但我的文件格式有问题。

我的配置:

  • Couchbase 服务器 2.0
  • 堆栈hadoop cdh4.1.2
  • sqoop 1.4.2(用hadoop2.0.0编译)
  • couchbase/hadoop 连接器(使用 hadoop2.0.0 编译)

当我运行导出命令时,我可以轻松地以这种格式导出文件:

或者

或者

但是当我想应用一个 Json 对象时它不起作用!

内容在第一个逗号处被 couchbase 截断并显示在 base64 中,因为现在内容不是正确的 JSON...

所以,我的问题是文件必须如何格式化才能存储为 json 文档?

我们只能导出一个键/值文件吗?

我想从 HDFS 中导出 json 文件,就像cbdocloader使用本地文件系统中的文件一样......