0

我正在将一个表从 mysql 导入到 hive。该表有2115584行。在导入期间我看到

13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.

但是当我count(*)在导入的表上做 a 时,我看到它有49262250行。到底是怎么回事?

更新:指定时导入正常工作--direct

4

1 回答 1

6

弄清楚了。来自 sqoop 用户手册:

如果数据库的行包含具有 Hive 的默认行分隔符(\n 和 \r 字符)或列分隔符(\01 字符)的字符串字段,Hive 使用 Sqoop 导入的数据将出现问题。您可以使用 --hive-drop-import-delims 选项在导入时删除这些字符,以提供与 Hive 兼容的文本数据。

我刚刚指定--hive-drop-import-delims,它现在可以工作了。

于 2013-03-20T19:25:00.840 回答