1

我想使用 Athena 查询系统日志(基本上是我的 SQL 错误日志)。这是我的样本数据。

2019-09-21T12:19:32.107Z 2019-09-21 12:19:24.17 Server      Buffer pool extension is already disabled. No action is necessary. 

2019-09-21T12:19:32.107Z 2019-09-21 12:19:24.29 Server      InitializeExternalUserGroupSid failed. Implied authentication will be disabled.

所以我创建了一个这样的表:

CREATE EXTERNAL TABLE IF NOT EXISTS bhuvi (
  timestamp string,
  date string,
  time string,
  user string,
  message stringg
 ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
 WITH SERDEPROPERTIES (
 "input.regex" = "(\\w+)\\s+(.*\\-.*\\-.*)\\s+(\\d+:\\d+:\\d+.\\d+)\\s+(\\w+)\\s+(\\w+)"
 ) LOCATION 's3://log/sql_error_log_stream/';

但它没有给出任何结果。有人可以帮我弄清楚吗?

4

1 回答 1

1

几点观察:

  1. 时间戳'2019-09-21T12:19:32.107Z'不是 hiveTIMESTAMP格式,将其定义为STRINGDDL 并在此答案中进行转换:https ://stackoverflow.com/a/23520257/2700344
  2. serde 中的消息表示为 (\w+) 组。这是错误的,因为消息包含空格。尝试(.*?)$代替(\\w+)消息字段。

    试试这个正则表达式:

    (\\S+)\\s+(.*-.*-.*)\\s+(\\d+:\\d+:\\d+\\.\\d+)\\s+(\\S+)\\s+(.*?)$

使用(\\S+)- 这意味着除了空格之外的所有内容。 (\\w+)不适用于第一组,因为\\w仅匹配任何字母数字字符和下划线,并且第一组(时间戳)也包含-:字符。

-如果在字符类之外 [在方括号中] 也不需要屏蔽,则还要使用连字符。和点。有特殊含义,字面用作点时需要屏蔽:https ://stackoverflow.com/a/57890202/2700344

于 2019-09-22T19:32:08.217 回答