Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在将一个表从 mysql 导入到 hive。该表有2115584行。在导入期间我看到
2115584
13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
但是当我count(*)在导入的表上做 a 时,我看到它有49262250行。到底是怎么回事?
count(*)
49262250
更新:指定时导入正常工作--direct。
--direct
弄清楚了。来自 sqoop 用户手册:
如果数据库的行包含具有 Hive 的默认行分隔符(\n 和 \r 字符)或列分隔符(\01 字符)的字符串字段,Hive 使用 Sqoop 导入的数据将出现问题。您可以使用 --hive-drop-import-delims 选项在导入时删除这些字符,以提供与 Hive 兼容的文本数据。
我刚刚指定--hive-drop-import-delims,它现在可以工作了。
--hive-drop-import-delims