“sqoop”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3030 浏览

hadoop - 如何在 Sqoop 导出中使用自动增量 ID

我在 HDFS 中有一个制表符分隔的文本文件，并希望将其导出到 MySQL 表中。

由于文本文件中的行没有数字 ID，我如何导出到在 SQL INSERT（自动增量）期间自动设置 ID 的表中？

如果我尝试导出（id 是表中最后定义的属性），我得到

如果我采用自动生成的类并对其进行修改以排除 id 属性，我会得到

其中参数 27 是“id”。

版本是 Sqoop 1.3.0-cdh3u3

hadoop sqoop

2012-04-11T10:33:43.620

0 投票

3 回答

3265 浏览

java - 与在 Amazon EMR 上运行 Hive/Sqoop 相关的查询？

我的用例：

我想通过 SQOOP 从 EC2 将大数据导入 Hive。Hive 中导入的数据将通过应用一些算法在 Hive 中进行处理，并生成一些结果（以表格形式，仅在 Hive 中）。并且生成的结果将仅通过 SQOOP 再次导出回 Ec2。

我是 Amazon Web Services 的新手，想在 AWS EMR 的帮助下实施这个用例。我已经在本地机器上实现了它。

我已经阅读了一些与 AWS EMR 相关的链接，用于启动实例以及 EMR 是什么、它是如何工作的等等......

我对 EMR 有一些疑问，例如：

1) EMR 使用 S3 Buckets，它保存输入和输出数据 Hadoop 处理（以对象的形式）。---> 我没有得到如何在 S3 上以对象的形式存储数据（我的数据将是文件）

2）如前所述，我已经在 Java 中为我的用例实现了一项任务。因此，如果我创建程序的 JAR 并使用自定义 JAR 创建作业流。是否有可能像这样实现，还是需要为此做一些额外的事情？

3) 正如我在用例中所说，我想在 SQOOP 的帮助下将结果导出回 Ec2。EMR 是否支持 SQOOP？

--edited part 4) 此外，我将每天/每周从 SQL Server 导入我的数据，因为我在 SQL Server 中的数据每天/每周都会更新。如果我想在 S3 上导入该数据并将其提供给 Hive，那么我该怎么做？（因为 Hive 将其数据存储在 /user/hive/warehouse 目录下的 HDFS 上）。如何链接到 HDFS 中的 S3 和 /user/hive/warehouse 目录。

请尽快回复我您的答案。我想尽早做到这一点。

非常感谢。

2012-04-23T07:36:05.370

0 投票

2 回答

1275 浏览

hadoop - 在 Map Reduce 代码中运行时的 Sqoop 权限问题

我正在尝试使用 map reduce 程序调用 Sqoop

执行时，我收到以下错误

我已将 /tmp 及其在 HDFS 中的子目录的权限设置为 777

我可以使用命令行很好地调用相同的命令sudo -u hdfs sqoop ...

这是 Cloudera 的 hadoop distirbution，我以 hdfs 用户身份运行该作业。

hadoop hdfs cloudera sqoop

2012-05-01T05:25:28.463

0 投票

7 回答

10983 浏览

hadoop - Sqoop Import is completed successfully. How to view these tables in Hive

I am trying something on hadoop and its related things. For this, I have configured hadoop, hase, hive, sqoop in Ubuntu machine.

All goes fine, but when I enter hive command line and execute show tables, there are nothing. I am able to see that these tables are created in HDFS.

I have seen some options in Sqoop import - it can import to Hive/HDFS/HBase. When importing into Hive, it is indeed importing directly into HDFS. Then why Hive?

Where can I execute HiveQL to check the data.

From cloudera Support, I understood that I can Hue and check it. But, I think Hue is just an user interface to Hive.

Could someone help me here.

Thanks in advance,

Raghu

hadoop hive sqoop

2012-05-01T11:09:33.993

0 投票

2 回答

3848 浏览

hadoop - 将 Sqoop 数据从 HDFS 移动到 Hive

使用 Sqoop 将一堆大型 MySQL 表导入 HDFS 时，我忘记包含 --hive-import 标志。所以现在我已经将这些表放在 HDFS 中，并且想知道是否有一种简单的方法可以将数据加载到 Hive 中（无需自己编写 LOAD DATA 语句）。

我尝试使用 sqoop create-hive-table：

虽然这确实创建了正确的配置单元表，但它没有将任何数据导入其中。我有一种感觉，我在这里错过了一些简单的东西......

作为记录，我使用 Elastic MapReduce 和 Sqoop 1.4.1。

hadoop hive hdfs sqoop

2012-05-09T16:22:26.000

0 投票

2 回答

4387 浏览

mysql - 通过sqoop将数据从hive hadoop保存到mysql中？

我将数据存储到配置单元表中。我想使用 sqoop 将 hive 表选定的数据传输到 mysql 表。

请指导我如何做到这一点？

mysql hadoop hive sqoop

2012-05-17T08:05:46.997

0 投票

2 回答

581 浏览

hadoop - 将包含 ® 和 © 等字符的数据从 Oracle 加载到 HDFS 时出现问题 - Hadoop 分布式文件系统

我正在使用 Cloudera Sqoop 将数据从 Oracle 数据库获取到 HDFS。除了像 ® 和 © 这样的字符在 HDFS 中被转换为 ®Â© 之外，一切都很好。（但是在 Oracle 中，数据的存储没有任何问题）。有什么方法可以将这些字符原样存储在 HDFS 中？

Sqoop 版本：1.3

谢谢， Karthikeya

hadoop hdfs sqoop

2012-05-30T13:35:42.017

0 投票

1 回答

3354 浏览

mysql - Hive count(*) shows one row more than in actual SQL table

I imported a table from sql using sqoop import using the command sqoop import. On doing a select count(*) from Hive, I'm getting the row count as

231743

But the actual SQL table has 231742 rows.

Why am I getting one row extra for this table?

I imported 2 other similar tables have large amounts of data and am getting the exact count. But this particular table gives me an extra row in hive. Why is that? :-o

PS: I included --hive-drop-import-delims with the sqoop import command

Thanks in advance :)

UPDATE: Seems like I have duplicate entries in the table. It got generated during the import. Anyone has any idea why? :)

mysql hadoop hive sqoop

2012-06-06T07:59:21.847

0 投票

2 回答

722 浏览

hive - 使用 Sqoop 向 Hive 向量化

我一直在尝试使用 Sqoop 将表从 Vectorwise 导入 Hive。我下载了 Vectorwise JDBC 驱动程序等。它只是行不通。

这是我正在使用的命令： sudo -u hdfs sqoop import --driver com.ingres.jdbc.IngresDriver --connect jdbc:ingres://172.16.63.157:VW7/amit --username ingres -password ingres --表 vector_table --hive-table=vector_table --hive-import --create-hive-table -m 1

我收到错误：12/06/07 22:08:27 错误 sqoop.Sqoop：运行 Sqoop 时出现异常：java.lang.RuntimeException：无法加载数据库驱动程序类：com.ingres.jdbc.IngresDriver java。 lang.RuntimeException：无法加载 db 驱动程序类：com.cloudera.sqoop.manager.SqlManager.makeConnection(SqlManager.java:635) 上 com.cloudera.sqoop.manager.GenericJdbcManager.getConnection 的 com.ingres.jdbc.IngresDriver（ GenericJdbcManager.java:53) 在 com.cloudera.sqoop.manager.SqlManager.execute(SqlManager.java:524) 在 com.cloudera.sqoop.manager.SqlManager.execute(SqlManager.java:547) 在 com.cloudera.sqoop .manager.SqlManager.getColumnTypesForRawQuery(SqlManager.java:191) 在 com.cloudera.sqoop.manager.SqlManager.getColumnTypes(SqlManager.java:175) 在 com.cloudera.sqoop.manager.ConnManager.getColumnTypes(ConnManager.java:263) 在 com.cloudera.sqoop.orm.ClassWriter.getColumnTypes(ClassWriter.java:1226) 在 com.cloudera.sqoop.orm.ClassWriter.generate(ClassWriter.java:1051) 在 com.cloudera.sqoop.tool.CodeGenTool .generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool.run(ImportTool.java:456) 在 com。 cloudera.sqoop.Sqoop.run(Sqoop.java:146) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182)在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239 )1051) 在 com.cloudera.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool .run(ImportTool.java:456) 在 com.cloudera.sqoop.Sqoop.run(Sqoop.java:146) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 com.cloudera。 sqoop.Sqoop.runSqoop(Sqoop.java:182) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera .sqoop.Sqoop.main(Sqoop.java:239)1051) 在 com.cloudera.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool .run(ImportTool.java:456) 在 com.cloudera.sqoop.Sqoop.run(Sqoop.java:146) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 com.cloudera。 sqoop.Sqoop.runSqoop(Sqoop.java:182) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera .sqoop.Sqoop.main(Sqoop.java:239)hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182) at com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) at com .cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239)hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182) at com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) at com .cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239)

如果有人可以在这里帮助我，我将不胜感激。

提前致谢！:)

hive sqoop

2012-06-07T11:20:47.497

0 投票

0 回答

307 浏览

hadoop - 使用 Sqoop 将 Hive 转换为 Vectorwise

我安装了 Vectorwise 2.0.2 和 Sqoop 1.4.1。

当我尝试使用时sqoop-export：

操作在这里卡住了。没有错误提示，也没有出现提示。

任何与此相关的帮助表示赞赏。

hadoop hive sqoop ingres

2012-06-08T08:06:48.547

问题标签 [sqoop]

我的用例：

我对 EMR 有一些疑问，例如：

Reference