0

我正在尝试使用 filebeat 将日志文件发送到 logstash。输入路径的文件夹结构目前非常多,非常大。我们有以下结构:

<LOG_PATH>/<STREAM>/<WORKFLOW>/<TASK>/<EXECUTION_DATE>/<TRY_NUMBER>.log

日志实际上并没有那么大,但该应用程序平均每天会生成 300.000 个新日志文件,具体取决于正在运行的工作流和任务。每个新创建的日志都会创建一个包含日志文件的新 execution_date 文件夹,最后,我们的结构难以管理。通过文件夹“查找”可能需要一周或更长时间,而某些工作流文件夹中的“ls”可能需要数小时。我什至编写了一个 python 脚本来使用 glob 计算文件和任务文件夹,但执行在一段时间后终止。

正如我所发现的,filebeat 正在使用文件路径/glob,所以我的问题是:filebeat 如何“遍历”输入?它可以与pythons glob相媲美,因此它会在一段时间后终止而没有任何错误日志吗?我可以假设 filebeat 在共享卷下无法处理这么多文件吗?

如果相关,我尝试从中收集日志的应用程序是 Airflow。

4

0 回答 0