问题标签 [sqoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - sqoop 导入 hbase 没有写入记录
我目前正在使用 Cloudera CDH4 VM。
一切似乎都在工作。下面是我的输出。导入声称成功,但没有写入任何记录。我已经附上了导入的输出。[
java - 用 Sqoop 导出 Hive 表,有些行没有分隔
我有一个使用 Hive 生成的表(在 Amazon Elastic MapReduce JobFlow 上)。我可以看到数据位于hdfs:///mnt/hive_081/warehouse/[table name]
.
我已经将 Sqoop 包装在一个 jar 中(没有更改任何内容),并将其上传到主节点进行测试。
我这样运行我的 sqoop jar:
其中 $ARGS 是(省略了敏感的 mysql 标志):
我正在对我模拟的十行数据进行测试。没有空值。每一行都是唯一的,在所有列中重复相同的数字。当我执行命令时,我得到很多
我每次都会收到相同的四行(共 10 行)的此消息(忽略负值,这些是 TINYINT 的列,不适合该数字)。
您可以看到行中前两个值之间的空间要小得多。这是我的问题吗?什么会导致这个?仅供参考,如果我将数据文件从 HDFS 复制到本地 FS,并指向它,我不会收到此消息 - 而且数据也没有到达其目的地:/。无论如何,我正在尝试自动化多步骤过程,因此我希望能够直接对 HDFS 数据进行操作,而无需复制任何内容。
非常感谢任何建议!
更新:当我使用逗号作为分隔符时也会发生这种情况。观察到相同的四行。当我将 Hive 表限制为仅一行(而不是先前测试中的错误行之一)时,会发生相同的错误。
mysql - 如何使用 Sqoop 从 MySQL 增量导入到 Hive?
我可以使用 Sqoop 成功地从 MySQL 增量导入到 HDFS
以日志消息结束,例如
并且检查作业会发现 incremental.last.value 已正确更新。
如果我尝试相同的过程,但将“--hive-import”添加到我的作业定义中,它将成功执行,但不会更新incremental.last.value。
这是一个错误吗?预期行为?有没有人有从 MySQL 增量导入数据并通过 Hive 提供数据的程序?
我基本上希望我的 Hadoop 集群成为我的 MySQL 数据库的读取从属,以便快速分析。如果除了 Hive 之外还有其他解决方案(Pig 会很好),我也很想听听。
sql-server - Sqoop 连接到 MS SQL 超时
我正在尝试使用 Sqoop 连接到 Microsoft SQL Server。我按照Sqoop Connector和JDBC Driver的说明安装了 Microsoft 的 JDBC 驱动程序。接下来我尝试列出服务器上的数据库。我尝试了以下命令:
这些命令中的每一个都会产生相同的错误消息。
我已经使用 Microsoft SQL Server Management Studio 连接到数据库,以确保数据库正在运行并且主机/用户名/密码都正确。此外,我已确保端口已打开,并且 MSSQL 位于另一侧,如下所示。
关于我应该从这里去哪里的任何建议?我无法找到有关此错误的任何文档。谢谢
我目前正在尝试使用 FreeTDS 中的 OSQL 来验证 SQL 服务器是否可以访问。将用我的发现更新这篇文章。
sqoop - Sqoop 并行连接不同的 MySQL 数据库
Sqoop 可以与不同主机中的许多不同 Mysql 数据库并行连接吗?
hadoop - Sqoop 与 hadoop 集成,用于使用 oraoop 导入 Oracle 数据
我一直在尝试使用带有 oraoop 的 scoop 将数据从 oracle Express edition 11g R2 导入到 hadoop。
我安装了 CDH sqoop 并尝试集成已经运行的 apache hadoop。
我发现 oraoop 使用正确,但我在导入时遇到以下问题。我也尝试使用 apache sqoop 和 apache hadoop,但仍然遇到以下问题。网络搜索也建议使用 CDH hadoop 而不是 apache Hadoop。
**
线程“main”java.lang.IncompatibleClassChangeError 中的异常:找到类 org.apache.hadoop.mapreduce.JobContext,但在 com.quest.oraoop.OraOopDataDrivenDBInputFormat.getDesiredNumberOfMappers(OraOopDataDrivenDBInputFormat.java:201) 处需要接口。 oraoop.OraOopDataDrivenDBInputFormat.getSplits(OraOopDataDrivenDBInputFormat.java:51)
**
总结一下,
CDH sqoop + Apache Hadoop - 上述数据导入失败
异常 Apache Sqoop + Apache hadoop - 数据导入失败,出现上述异常
CDH Sqoop + CDH Hadoop - 这是正确的组合吗?
有什么建议么?我不确定我是否走对了路。请帮忙。
hadoop - Couchbase/hadoop 连接器:sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类”
我的配置:
- CouchBase 服务器 2.0
- Sqoop 1.4.2(为 hadoop 版本 2.0.0 编译)
- 堆栈 Hadoop CDH4.1.2
我想使用 CouchBase/Hadoop 连接器(http://www.couchbase.com/develop/connectors/hadoop),但是当我启动导入时出现以下错误:
有没有人使用过具有相同配置的连接器并成功使其工作?
谢谢你的帮助!
玛德琳
oracle - Sqoop 访问特定的 Oracle Schema
我有一个 Oracle 数据库,其中包含许多模式、一个主模式和一堆子模式。我的主模式具有特权,因此它可以在任何子级中创建/销毁/访问表。
我的问题是,我正在 Sqoop 中的主模式上做一个列表表,我看到所有子表都包含在结果中。
有没有办法区分这些表属于哪个模式?我有一些重叠的名称,目前无法判断哪个表在哪里。
米
hadoop - Sqoop 导入后无法查询 Hive 表
我通过 sqoop 将几个 oracle 数据库表导入 hive。该命令看起来像这样:
我使用的是嵌入式 Metastore(至少我是这么认为的。在这方面我没有更改默认配置)。当我在 HIVE 中执行 SHOW TABLES 时,导入的表不会显示,但我为通过命令行测试创建的一些表会显示。这些表都在 hdfs 上的同一个仓库目录中。似乎 sqoop 导入没有使用相同的元存储。
但它在哪里?使用命令行查询时如何切换到它?
谢谢
json - Sqoop HDFS 到 Couchbase:json 文件格式
我正在尝试将数据从 HDFS 导出到 Couchbase,但我的文件格式有问题。
我的配置:
- Couchbase 服务器 2.0
- 堆栈hadoop cdh4.1.2
- sqoop 1.4.2(用hadoop2.0.0编译)
- couchbase/hadoop 连接器(使用 hadoop2.0.0 编译)
当我运行导出命令时,我可以轻松地以这种格式导出文件:
或者
或者
但是当我想应用一个 Json 对象时它不起作用!
内容在第一个逗号处被 couchbase 截断并显示在 base64 中,因为现在内容不是正确的 JSON...
所以,我的问题是文件必须如何格式化才能存储为 json 文档?
我们只能导出一个键/值文件吗?
我想从 HDFS 中导出 json 文件,就像cbdocloader使用本地文件系统中的文件一样......