问题标签 [sqoop2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
633 浏览

java - 使用分隔符和转义字符从 JAVA API 导入 Sqoop

我正在尝试将数据从 RDBMS(Mysql)导入 HDFS。我在 Sqoop 教程上做了一些阅读,发现一些有用的链接。 http://devslogics.blogspot.com/2013/09/sqoop-java-client.html?showComment=1399588094791#c7484088811270691337 我可以使用上面粘贴的链接中的代码将数据导入到 TEXT_FILE 中的 HDFS。Sqoop 默认使用逗号作为默认分隔符。这对我不起作用。我现在想要实现的是自定义分隔符/转义字符。

我也可以通过 shell 执行以下命令 sqoop import --connect jdbc:mysql://xxx.xx.xx:3306/sqoop --username xxx --password xxx --table students --enclosed- by \" --转义\"

非常感谢有关如何通过 sqoop-client java api 实现此功能的任何帮助。

提前感谢肖恩

0 投票
0 回答
223 浏览

hadoop - 我们可以更改 sqoop2 中的默认用户吗

我需要将数据从 Mysql 导入到 HDFS。发现此链接有帮助 http://devslogics.blogspot.com/2013/09/sqoop-java-client.html?showComment=1399588094791#c7484088811270691337。我正在尝试创建一个新的 HDFS 位置,但由于访问被拒绝问题,sqoop 作业失败。我的问题是:我们可以更改默认用户吗?这里默认用户是 sqoop2。我们可以将其设置为我们想要的用户吗?我正在使用回调方法提交作业

这是我在运行作业后在日志中发现的错误。

提前致谢

0 投票
2 回答
819 浏览

hadoop - 如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列?

我可以在导入或导出时合并两列或更多列吗假设我在 DBMS ID、FIRST_NAME、LAST_NAME 中有 3 列,并且我想将其加载为 ID,NAME 只有两列。那么我该怎么做呢?

0 投票
3 回答
7807 浏览

hadoop - 如何更改 sqoop 元存储?

我正在使用 sqoop 1.4.2 版本。我正在尝试将 sqoop 元存储从默认的 hsqldb 更改为 mysql。

我在 sqoop-site.xml 文件中配置了以下属性。

当我尝试使用元连接 url 创建一个 sqoop 作业时,它无法连接到配置的 mysql 数据库。

它抛出以下异常。

sqoop 1.4.2 是否支持 hsql db 以外的元存储?

请建议。

0 投票
1 回答
2005 浏览

sql-server - 使用 sqoop 从 hive 导出到 sqlsrver

我试图将数据从配置单元导出到 mssql 服务器,我知道 sqoop 和 sql 服务器都可以,因为我可以毫无问题地导出另一个表。

我得到的错误是:

19 年 6 月 14 日 14:48:37 信息 mapreduce.Job:任务 ID:尝试_1403175168750_0031_m_000003_0,状态:失败错误:java.io.IOException:无法导出数据,请在 org.apache.sqoop 检查失败的地图任务日志。 mapreduce.TextExportMapper.map(TextExportMapper.java:112) 在 org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39) 在 org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)在 org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64) 在 org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764) 在 org.apache.hadoop.mapred.MapTask.run (MapTask.java:340) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(主题.java:415) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548) 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163) 引起:java.lang.RuntimeException: Can '不解析输入数据:'你可能对你想要如何生活抱有秘密的幻想......更多处女座http://t.co/Jnt91NMNt5 '在 StageFlumeTweets.__loadFromFields(StageFlumeTweets.java:236) 在 StageFlumeTweets.parse(StageFlumeTweets.java:174) 在 org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:83) ) ... 10 更多 原因:java.lang.NumberFormatException:对于输入字符串:“您可能对自己想要如何生活抱有秘密幻想...更多处女座http://t.co/Jnt91NMNt5 ”在 java .lang.NumberFormatException.forInputString(NumberFormatException.java:65) 在 java.lang.Long.parseLong(Long.java:441) 在 java.lang.Long.valueOf(Long.java:540) 在 StageFlumeTweets.__loadFromFields(StageFlumeTweets. java:228) ... 12 更多

我用来导出数据的命令是:

sqoop 导出 --verbose --connect "jdbc:sqlserver://xx;database=xx;username=xx;password=xx" --export-dir /user/hive/warehouse/xx/twitter_bulk2/ --table StageFlumeTweets - -输入字段以','终止

包含数据的文件只是一个 tweetid,文本如下:

468751929271517185,RT @BestofScorpio:一个女人可能想要你,但她不需要你。468751929565130752,我要借别人的红色口红

0 投票
2 回答
1775 浏览

java - 如何在 Horton Sandbox 中获取 Sqoop 服务器运行 URL 和端口

我正在使用 sqoop 客户端。并且不知道我必须通过哪个 URL 来初始化 SqoopClient 对象。我正在运行预先配置了所有内容的 horton Sandbox。我不知道它是否正在运行 sqoop 服务器。如果它正在运行,那么我不知道端口。如果它没有运行,我该如何在 Sandbox 中运行它。

我正在阅读本页给出的教程:http: //devslogics.blogspot.in/2013/09/sqoop-java-client.html

这两行是用 url 初始化的重点。

这是我的完整代码-

0 投票
1 回答
1722 浏览

hadoop - Sqoop 导出只更新指定的列

据我所知,我们可以使用“--udate-key”参数更新数据库。这会更新该键的整个记录​​。我们可以使用“--update-mode allowinsert”或“--update-mode updateonly”插入或更新。

例如,我有一个文件,它由主键和一个列值组成,我必须在一个表中更新它还有其他列。我的问题是,我们可以在不更新表中其他列的情况下更新该特定列吗?我们必须为 --update-key 参数指定所有列,对吗?有什么解决方案或解决方法吗?

0 投票
2 回答
1276 浏览

hortonworks-data-platform - Sqoop 增量导入(db 架构不正确)

我尝试使用 Sanbox 2.1 和 Microsoft SQL Server(AdventureWorks 数据库)进行增量导入。对于增量导入,我使用以下命令:

正如您在下面的错误消息中看到的,选择语句“SELECT MAX([SalesLT].[ProductModelID]) FROM ProductModel”的构造方式不正确。

模式名被添加到没有表名的列中,而 FROM 子句中的表名缺少模式名……</p>

任何帮助表示赞赏。

谢谢!

PS。导入一个完整的表工作正常。

0 投票
1 回答
482 浏览

sqoop - 下载哪个版本的 sqoop

我已经安装了 hadoop 2.2 版本,想对 apache-sqoop 进行一些实验。

谁能指导我使用哪个 sqoop 版本?另请发送官方安装和使用入门指南。

谢谢。

0 投票
3 回答
9256 浏览

java - 无法在 SQOOP 中创建 JOB

我在 SQOOP 中运行了下面的代码片段,并在代码下方列出了错误。

bin/sqoop job --create myjob import --connect jdbc:mysql://localhost/test -username root -password root --table patient -m 1 --target-dir /Sqoop/MRJob

管理员@ubuntu:~/sqoop-1.4.4.bin__hadoop-1.0.0$ bin/sqoop job --create myjob import --connect jdbc:mysql://localhost/test -username root -password root --table Patient - m 1 --target-dir /Sqoop/MRJob 警告:/usr/lib/hcatalog 不存在!HCatalog 作业将失败。请将 $HCAT_HOME 设置为 HCatalog 安装的根目录。警告:不推荐使用 $HADOOP_HOME。

2016 年 7 月 14 日 23:23:36 错误 tool.BaseSqoopTool:解析作业参数时出错:14/07/16 23:23:36 错误 tool.BaseSqoopTool:无法识别的参数:导入 16 年 7 月 23:23:36错误工具.BaseSqoopTool:无法识别的参数:--connect 14/07/16 23:23:36 错误工具.BaseSqoopTool:无法识别的参数:jdbc:mysql://localhost/test 14/07/16 23:23:36 错误工具.BaseSqoopTool:无法识别的参数:-用户名 14/07/16 23:23:36 错误工具。BaseSqoopTool:无法识别的参数:root 14/07/16 23:23:36 错误工具.BaseSqoopTool:无法识别的参数:-密码 14/07 /16 23:23:36 错误工具。BaseSqoopTool:无法识别的参数:root 14/07/16 23:23:36 错误工具。BaseSqoopTool:无法识别的参数:--table 14/07/16 23:23:36 错误工具。 BaseSqoopTool:无法识别的参数:患者 2016 年 14 月 7 日 23:23:36 错误工具。BaseSqoopTool:无法识别的参数:-m 14/07/16 23:23:36 错误工具.BaseSqoopTool:无法识别的参数:1 14/07/16 23:23:36 错误工具.BaseSqoopTool:无法识别的参数:--target-dir 14/07/16 23 :23:36 错误工具。BaseSqoopTool:无法识别的参数:/Sqoop/MRJob

尝试 --help 以获取使用说明。用法:sqoop 作业 [GENERIC-ARGS] [JOB-ARGS] [-- [] [TOOL-ARGS]]

作业管理参数: --create 创建新的保存作业 --delete 删除保存的作业 --exec 运行保存的作业 --help
打印使用说明 --list 列出保存的作业 --meta-connect 指定元存储的 JDBC 连接字符串--show 显示已保存作业的参数 --verbose
在工作时打印更多信息

通用 Hadoop 命令行参数:(必须在任何特定于工具的参数之前)支持的通用选项有 -conf 指定应用程序配置文件 -D 使用给定属性的值 -fs 指定名称节点 -jt 指定作业跟踪器 -files 指定逗号分隔要复制到映射的文件 reduce cluster -libjars 指定要包含在类路径中的逗号分隔的 jar 文件。-archives 指定要在计算机上取消存档的逗号分隔存档。

一般的命令行语法是 bin/hadoop command [genericOptions] [commandOptions]

有人可以帮我吗?

在此先感谢您的帮助。

注意:我的 SQL 相关词典是完美的。问候