2

我正在尝试通过文件插入 Hive 表。但是碰巧文本文件中的最后一列包含溢出不同行的数据。

示例数据:

col1|col2|col3|this line is spilling into different line
               as is this, this is spilling this is spilling this is sp
               iliing and so is this
col1|col2|col3|this can be inserted without problem

因此,溢出的数据被视为新行,而不是包装到最后一列。我尝试使用由选项终止的行,但无法使其正常工作。

4

1 回答 1

0

这是在列中嵌入换行符(行/记录结束)符号的更一般问题的特殊情况。典型的 csv 文件格式在字符串字段周围有引号字符,因此通过注意换行符在引号内来简化检测字段中嵌入的换行符。您没有引号字符,但您确实知道字段的数量,因此您可以检测换行符何时会导致记录过早结束。但是在最后一个字段中检测换行符更难。您需要注意后续行没有字段分隔符,并假设以下这些行是记录的一部分。

于 2016-11-01T12:23:48.480 回答