问题标签 [sqoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何在 Sqoop 导出中使用自动增量 ID
我在 HDFS 中有一个制表符分隔的文本文件,并希望将其导出到 MySQL 表中。
由于文本文件中的行没有数字 ID,我如何导出到在 SQL INSERT(自动增量)期间自动设置 ID 的表中?
如果我尝试导出(id 是表中最后定义的属性),我得到
如果我采用自动生成的类并对其进行修改以排除 id 属性,我会得到
其中参数 27 是“id”。
版本是 Sqoop 1.3.0-cdh3u3
java - 与在 Amazon EMR 上运行 Hive/Sqoop 相关的查询?
我的用例:
我想通过 SQOOP 从 EC2 将大数据导入 Hive。Hive 中导入的数据将通过应用一些算法在 Hive 中进行处理,并生成一些结果(以表格形式,仅在 Hive 中)。并且生成的结果将仅通过 SQOOP 再次导出回 Ec2。
我是 Amazon Web Services 的新手,想在 AWS EMR 的帮助下实施这个用例。我已经在本地机器上实现了它。
我已经阅读了一些与 AWS EMR 相关的链接,用于启动实例以及 EMR 是什么、它是如何工作的等等......
我对 EMR 有一些疑问,例如:
1) EMR 使用 S3 Buckets,它保存输入和输出数据 Hadoop 处理(以对象的形式)。---> 我没有得到如何在 S3 上以对象的形式存储数据(我的数据将是文件)
2)如前所述,我已经在 Java 中为我的用例实现了一项任务。因此,如果我创建程序的 JAR 并使用自定义 JAR 创建作业流。是否有可能像这样实现,还是需要为此做一些额外的事情?
3) 正如我在用例中所说,我想在 SQOOP 的帮助下将结果导出回 Ec2。EMR 是否支持 SQOOP?
--edited part 4) 此外,我将每天/每周从 SQL Server 导入我的数据,因为我在 SQL Server 中的数据每天/每周都会更新。如果我想在 S3 上导入该数据并将其提供给 Hive,那么我该怎么做?(因为 Hive 将其数据存储在 /user/hive/warehouse 目录下的 HDFS 上)。如何链接到 HDFS 中的 S3 和 /user/hive/warehouse 目录。
请尽快回复我您的答案。我想尽早做到这一点。
非常感谢。
hadoop - 在 Map Reduce 代码中运行时的 Sqoop 权限问题
我正在尝试使用 map reduce 程序调用 Sqoop
执行时,我收到以下错误
我已将 /tmp 及其在 HDFS 中的子目录的权限设置为 777
我可以使用命令行很好地调用相同的命令sudo -u hdfs sqoop ...
这是 Cloudera 的 hadoop distirbution,我以 hdfs 用户身份运行该作业。
hadoop - Sqoop Import is completed successfully. How to view these tables in Hive
I am trying something on hadoop and its related things. For this, I have configured hadoop, hase, hive, sqoop in Ubuntu machine.
All goes fine, but when I enter hive command line and execute show tables, there are nothing. I am able to see that these tables are created in HDFS.
I have seen some options in Sqoop import - it can import to Hive/HDFS/HBase. When importing into Hive, it is indeed importing directly into HDFS. Then why Hive?
Where can I execute HiveQL to check the data.
From cloudera Support, I understood that I can Hue and check it. But, I think Hue is just an user interface to Hive.
Could someone help me here.
Thanks in advance,
Raghu
hadoop - 将 Sqoop 数据从 HDFS 移动到 Hive
使用 Sqoop 将一堆大型 MySQL 表导入 HDFS 时,我忘记包含 --hive-import 标志。所以现在我已经将这些表放在 HDFS 中,并且想知道是否有一种简单的方法可以将数据加载到 Hive 中(无需自己编写 LOAD DATA 语句)。
我尝试使用 sqoop create-hive-table:
虽然这确实创建了正确的配置单元表,但它没有将任何数据导入其中。我有一种感觉,我在这里错过了一些简单的东西......
作为记录,我使用 Elastic MapReduce 和 Sqoop 1.4.1。
mysql - 通过sqoop将数据从hive hadoop保存到mysql中?
我将数据存储到配置单元表中。我想使用 sqoop 将 hive 表选定的数据传输到 mysql 表。
请指导我如何做到这一点?
hadoop - 将包含 ® 和 © 等字符的数据从 Oracle 加载到 HDFS 时出现问题 - Hadoop 分布式文件系统
我正在使用 Cloudera Sqoop 将数据从 Oracle 数据库获取到 HDFS。除了像 ® 和 © 这样的字符在 HDFS 中被转换为 ®Â© 之外,一切都很好。(但是在 Oracle 中,数据的存储没有任何问题)。有什么方法可以将这些字符原样存储在 HDFS 中?
Sqoop 版本:1.3
谢谢, Karthikeya
mysql - Hive count(*) shows one row more than in actual SQL table
I imported a table from sql using sqoop import using the command sqoop import. On doing a select count(*) from Hive, I'm getting the row count as
231743
But the actual SQL table has 231742 rows.
Why am I getting one row extra for this table?
I imported 2 other similar tables have large amounts of data and am getting the exact count. But this particular table gives me an extra row in hive. Why is that? :-o
PS: I included --hive-drop-import-delims with the sqoop import command
Thanks in advance :)
UPDATE: Seems like I have duplicate entries in the table. It got generated during the import. Anyone has any idea why? :)
hive - 使用 Sqoop 向 Hive 向量化
我一直在尝试使用 Sqoop 将表从 Vectorwise 导入 Hive。我下载了 Vectorwise JDBC 驱动程序等。它只是行不通。
这是我正在使用的命令: sudo -u hdfs sqoop import --driver com.ingres.jdbc.IngresDriver --connect jdbc:ingres://172.16.63.157:VW7/amit --username ingres -password ingres --表 vector_table --hive-table=vector_table --hive-import --create-hive-table -m 1
我收到错误:12/06/07 22:08:27 错误 sqoop.Sqoop:运行 Sqoop 时出现异常:java.lang.RuntimeException:无法加载数据库驱动程序类:com.ingres.jdbc.IngresDriver java。 lang.RuntimeException:无法加载 db 驱动程序类:com.cloudera.sqoop.manager.SqlManager.makeConnection(SqlManager.java:635) 上 com.cloudera.sqoop.manager.GenericJdbcManager.getConnection 的 com.ingres.jdbc.IngresDriver( GenericJdbcManager.java:53) 在 com.cloudera.sqoop.manager.SqlManager.execute(SqlManager.java:524) 在 com.cloudera.sqoop.manager.SqlManager.execute(SqlManager.java:547) 在 com.cloudera.sqoop .manager.SqlManager.getColumnTypesForRawQuery(SqlManager.java:191) 在 com.cloudera.sqoop.manager.SqlManager.getColumnTypes(SqlManager.java:175) 在 com.cloudera.sqoop.manager.ConnManager.getColumnTypes(ConnManager.java:263) 在 com.cloudera.sqoop.orm.ClassWriter.getColumnTypes(ClassWriter.java:1226) 在 com.cloudera.sqoop.orm.ClassWriter.generate(ClassWriter.java:1051) 在 com.cloudera.sqoop.tool.CodeGenTool .generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool.run(ImportTool.java:456) 在 com。 cloudera.sqoop.Sqoop.run(Sqoop.java:146) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182)在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239 )1051) 在 com.cloudera.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool .run(ImportTool.java:456) 在 com.cloudera.sqoop.Sqoop.run(Sqoop.java:146) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 com.cloudera。 sqoop.Sqoop.runSqoop(Sqoop.java:182) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera .sqoop.Sqoop.main(Sqoop.java:239)1051) 在 com.cloudera.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:84) 在 com.cloudera.sqoop.tool.ImportTool.importTable(ImportTool.java:370) 在 com.cloudera.sqoop.tool.ImportTool .run(ImportTool.java:456) 在 com.cloudera.sqoop.Sqoop.run(Sqoop.java:146) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 com.cloudera。 sqoop.Sqoop.runSqoop(Sqoop.java:182) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) 在 com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera .sqoop.Sqoop.main(Sqoop.java:239)hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182) at com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) at com .cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239)hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.cloudera.sqoop.Sqoop.runSqoop(Sqoop.java:182) at com.cloudera.sqoop.Sqoop.runTool(Sqoop.java:221) at com .cloudera.sqoop.Sqoop.runTool(Sqoop.java:230) 在 com.cloudera.sqoop.Sqoop.main(Sqoop.java:239)
如果有人可以在这里帮助我,我将不胜感激。
提前致谢!:)
hadoop - 使用 Sqoop 将 Hive 转换为 Vectorwise
我安装了 Vectorwise 2.0.2 和 Sqoop 1.4.1。
当我尝试使用时sqoop-export
:
操作在这里卡住了。没有错误提示,也没有出现提示。
任何与此相关的帮助表示赞赏。