0

我正在尝试创建一个 Hive 外部表,以便将系统日志消息分为四列:时间戳、主机、程序名+pid 和消息。我想在不使用 Regex serde 的情况下执行此操作,因为我还希望 Impala 可以使用该表(不支持 Regex Serde)。

麻烦的是,如果我用四个字段定义架构并指定“\040”作为字段分隔符,我最终只会得到消息的第一个字符串。例如,此日志行:

2014-01-01T04:00:00 myhost sshd[9008]: joe logged in from 192.168.1.1 with password ....

被映射为:

timestamp: 2014-01-01T04:00:00
host: myhost
prog: sshd[9008]:
msg: joe

“从...登录”被砍掉了。

鉴于有四列,有没有办法告诉 Hive 将其余字段放在最后一列而不是将它们排除在外?一个贪婪的选择?

谢谢

4

1 回答 1

0

我通过为整个日志行定义一个只有一列的 Hive 表来解决它,然后在 Impala 中使用 regexp_extract 创建一个视图。

在 Hive 中,创建一个表:

create EXTERNAL TABLE hive_syslog_table (logline STRING) LOCATION '/logs';

然后在黑斑羚:

create view syslog_view as select regexp_extract(logline,'(\\S+)\\s+(\\S+)\\s+(\\S+)\\s+(.+)',1) ts, regexp_extract(logline,'(\\S+)\\s+(\\S+)\\s+(\\S+)\\s+(.+)',2) host, regexp_extract(logline,'(\\S+)\\s+(\\S+)\\s+(\\S+)([:\\/\\[\\ ])\\s+(.+)',3) prog, regexp_extract(logline,'(\\S+)\\s+(\\S+)\\s+(\\S+)\\s+(.+)',4) msg from hive_syslog_table;
于 2014-01-15T05:36:24.463 回答