amazon-web-services - CloudWatch 日志行为怪异

Question

我有两个带有多行日志语句的日志文件。它们在每个日志语句的开头都具有相同的日期时间格式。配置如下所示：

state_file = /var/lib/awslogs/agent-state

[/opt/logdir/log1.0]
datetime_format = %Y-%m-%d %H:%M:%S
file = /opt/logdir/log1.0
log_stream_name = /opt/logdir/logs/log1.0
initial_position = start_of_file
multi_line_start_pattern = {datetime_format}
log_group_name = my.log.group


[/opt/logdir/log2-console.log]
datetime_format = %Y-%m-%d %H:%M:%S
file = /opt/logdir/log2-console.log
log_stream_name = /opt/logdir/log2-console.log
initial_position = start_of_file
multi_line_start_pattern = {datetime_format}
log_group_name = my.log.group

cloudwatch 日志代理正在将 log1.0 日志正确发送到我在 cloudwatch 上的日志组，但是，它没有发送 log2-console.log 的日志文件。

awslogs.log 说：

2016-11-15 08:11:41,308 - cwlogs.push.batch - WARNING - 3593 - Thread-4 - Skip event: {'timestamp': 1479196444000, 'start_position': 42330916L, 'end_position': 42331504L}, reason: timestamp is more than 2 hours in future.
2016-11-15 08:11:41,308 - cwlogs.push.batch - WARNING - 3593 - Thread-4 - Skip event: {'timestamp': 1479196451000, 'start_position': 42331504L, 'end_position': 42332092L}, reason: timestamp is more than 2 hours in future.

虽然服务器时间是正确的。同样奇怪的是 start_position 和 end_position 中提到的行号在实际推送的日志文件中不存在。

还有其他人遇到这个问题吗？

score 18 · Accepted Answer

我能够解决这个问题。

awslogs 的状态被破坏了。状态存储在 /var/awslogs/state/agent-state 中的 sqlite 数据库中。您可以通过以下方式访问它

sudo sqlite3 /var/awslogs/state/agent-state

sudo 需要具有写访问权限。

列出所有流

select * from stream_state;

查找您的日志流并注意source_id，它是 v 列中 json 数据结构的一部分。

然后，在push_state表中列出所有具有这个 source_id 的记录（在我的例子中是 7675f84405fcb8fe5b6bb14eaa0c4bfd）

select * from push_state where k="7675f84405fcb8fe5b6bb14eaa0c4bfd";

结果记录在 v 列中有一个 json 数据结构，其中包含一个 batch_timestamp。而这个 batch_timestamp 接缝是错误的。这是过去，不再处理任何更新（超过 2 小时）的日志条目。

解决方案是更新此记录。复制 v 列，将 batch_timestamp 替换为当前时间戳并使用类似的内容进行更新

update push_state set v='... insert new value here ...' where k='7675f84405fcb8fe5b6bb14eaa0c4bfd';

重启服务

sudo /etc/init.d/awslogs restart

我希望这个对你有用！

score 6 · Accepted Answer

我们遇到了同样的问题，以下步骤解决了这个问题。

如果日志组没有更新最新事件：运行这些步骤：

停止了 awslogs 服务
已删除文件/var/awslogs/state/agent-state
将 /var/awslogs/etc/awslogs.conf配置从主机名更新为实例 ID 例如：
```
log_stream_name = {hostname} to log_stream_name = {instance_id}   
```
启动 awslogs 服务。

score 0 · Accepted Answer

我能够通过以下方式在 Amazon Linux 上解决此问题：

sudo yum 重新安装 awslogs
sudo 服务 awslogs 重启

此方法将我的配置文件保留在 /var/awslogs/ 中，但您可能希望在重新安装之前备份它们。

注意：在我的故障排除中，我还Log Group通过 AWS 控制台删除了我的。重新启动完全重新加载了所有历史日志，但在当前时间戳上，价值较小。我不确定删除日志组是否对于此方法起作用是必要的。您可能希望在重新启动之前查看将initial_position配置设置为。end_of_file

score 0 · Accepted Answer

我找到了原因。我的 docker 容器中的时区与我的主机的时区不一致。设置两个时区一致后，问题解决

amazon-web-services - CloudWatch 日志行为怪异

4 回答 4

Related

Reference