2

我正在尝试在配置单元中创建一个内部(托管)表来存储我的增量日志数据。表格是这样的:

CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '<=>'
STORED AS TEXTFILE;

我需要定期将数据加载到此表中。

LOAD DATA INPATH '/user/foo/data/logs' INTO TABLE logs;

但是数据没有正确插入到表中。分隔符可能有问题。找不到原因。

示例日志行:

120<=>abcdefg<=>2016-01-01 12:14:11

select * from logs;我得到,

120  =>abcdefg  NULL

第一个属性很好,第二个包含分隔符的一部分,但由于它是要插入的字符串,第三个属性为空,因为它需要日期时间。

任何人都可以帮助如何提供自定义分隔符并成功加载数据。

4

3 回答 3

3

默认情况下,hive 只允许用户使用单个字符作为字段分隔符。虽然有 RegexSerDe 来指定多字符分隔符,但使用起来可能会让人望而生畏,尤其是对于业余爱好者而言。

该补丁 ( HIVE-5871 ) 添加了一个新的SerDe名为MultiDelimitSerDe. 使用MultiDelimitSerDe用户可以在创建表时指定多字符字段分隔符,其方式与典型的表创建最相似。

hive> CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
    > ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' 
    > WITH SERDEPROPERTIES ("field.delim"="<=>")
    > STORED AS TEXTFILE;

hive> dfs -put /home/user1/multi_char.txt /user/hive/warehouse/logs/. ;

hive> select * from logs;
OK
120 abcdefg 2016-01-01 12:14:11
Time taken: 1.657 seconds, Fetched: 1 row(s)
hive> 
于 2016-08-08T12:28:38.600 回答
1
CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'
WITH SERDEPROPERTIES (
    "field.delim"="<=>",
    "collection.delim"=":",
    "mapkey.delim"="@"
);

在表中加载数据

load data local inpath '/home/kishore/Data/input.txt' overwrite into table logs;
于 2016-08-08T12:34:08.253 回答
1

我建议您使用前面提到的MultiDelimitSerDe答案。您也可以尝试使用RegexSerDe。但是您需要有一个额外的步骤将其解析为您的数据类型,因为 RegexSerde 默认接受 String 。

RegexSerDe 将派上用场处理一些日志文件,其中数据排列不均匀,只有一个分隔符。

CREATE TABLE logs_tmp  (foo STRING,bar STRING, created_date STRING) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 
WITH SERDEPROPERTIES (
 "input.regex" = "(\\d{3})<=>(\\w+)<=>(\\d{4}-\\d{2}-\\d{2}\\s\\d{2}:\\d{2}:\\d{2})"
) 
STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH 'logs.txt' overwrite into table logs_tmp;

CREATE TABLE logs  (foo INT,bar STRING, created_date TIMESTAMP) ;

INSERT INTO TABLE logs SELECT cast(foo as int) as foo,bar,cast(created_date as TIMESTAMP) as created_date from logs_tmp 

输出:

   OK
    Time taken: 0.213 seconds    
    hive> select * from logs;
    120     abcdefg 2016-01-01 12:14:11
于 2016-08-08T15:55:26.703 回答