encoding - 在 Hive 中使用 Icelandic Thorn 字符作为分隔符

Question

我目前正在尝试将一些 DoubleClick 广告日志导入 Hadoop。

这些日志存储在一个 gzip 分隔文件中，该文件使用第 1252 页（Windows-ANSI？）进行编码，并使用冰岛刺字符作为分隔符。

我可以愉快地将这些日志导入单个列，但我似乎无法找到让 Hive 理解 Thorn 字符的方法 - 我想可能是因为它不理解 1252 编码？

我查看了 Create Table 文档 - http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html - 但似乎找不到任何方法来获得这种编码/分隔符工作。

我还从https://karmasphere.com/karmasphere-analyst-faq看到了这些文件的编码是 ISO-8859-1 的建议 - 但我看不到如何在 Hive 或 HDFS 中使用该信息。

我知道我可以在导入后进行映射工作，将这些行拆分为多条记录。

但是有没有更简单的方法可以直接使用这个分隔符？

谢谢

斯图尔特

score 2 · Accepted Answer

使用 '\-2' char 是有符号字节。

显然 hive 开发人员认为这不是问题： https ://issues.apache.org/jira/browse/HIVE-237

1 回答 1