以下是我的问题的要点。
环境:Hadoop 2 (CDH5.1) 数据库:oracle 11g
场景:我正在将数据库中的事实和维度表放入 hdfs 中。最初,我在处理根据建议设置为 \N 的空值(使用 --null-string 和 --non-null-string 处理)时遇到了挑战。当构建的 hive 表包含日期和数字的字符串字段时,一切都很好。
到目前为止的解决方案 根据建议,我转而使用 Avro 格式进行导入。我已经在 avro 数据上构建了 hive 表,并且能够查询这些表。现在我需要创建 Hive 连接并将所有字段转换为所需的类型,例如将日期转换为日期/时间戳,将数字转换为 int/bigint 等。在 sqooping 之后,创建的 avro 架构已将所有日期字段转换为 long 和 hive 表为这些列显示 bigint。
我对 sqoop 如何处理 null 以及如何在 hive/hdfs MR 等中处理这些感到困惑。
您能否提出任何可以利用的已采用实践?
谢谢文卡特什