问题标签 [logfile-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
555 浏览

dns - 如何读取 DNS 查询日志文件

我有一个 DNS 内部查询日志文件,我想对其进行分析,所以 onw 记录如下所示:

18-Jun-2017 04:00:10.139 client @XXXXXXXXXXXX ip-address#number (ip-address): view internal: query: ip-address IN AAAA + (ip-address in ipv4)

我对此真的很陌生,所以我尝试在线搜索,但我找不到记录中的“+”是什么意思,据我了解,AAAA应该代表ipv6 ip格式,为什么我得到以下ipv4地址下面呢?

有人可以向我解释这条记录的含义或我可以自己阅读的一些链接吗?

非常感谢 !!

0 投票
1 回答
689 浏览

python - 使用 Pandas 扩展时间序列事件

问题

我正在寻找有关如何使其更加 Pythonic 并提高效率的建议。

我有一个包含事件的数据框,每个事件至少有一个开始和结束时间戳。我正在扩展记录数,以便新表在间隔重叠的每一小时都有一条记录。

这与QlikView中的IntervalMatch 函数基本相同。

示例:18:00-20:00 的事件扩展为两条不同的记录,一条用于 18:00-19:00,另一条用于 19:00-20:00。

当前解决方案

我有一个完全有效的解决方案,但我认为它相当难看,而且在 > 100k 行和 10-20 列的大型数据集上速度很慢。

使用一些示例数据,interval_match()可以像这样使用该函数:

我的愿望是

  1. 提高效率,最好使用内置的 Pandas 函数或一些 numpy 魔法。
  2. 不必像我今天在 interval_split 函数中那样处理列。只需操作并扩展整个数据框。

感谢任何建议或帮助。

0 投票
1 回答
482 浏览

bash - shell脚本未运行但命令行正在运行

我有一个错误日志文件,其内容为 -

我有命令将提取日期和通知,警告消息

它完全工作正常,我得到了预期的输出但是,我想将开始日期和结束日期作为命令行参数输入,为此,我将脚本编写为 -

但它没有返回任何东西。没有错误信息什么都没有..只是提示再次到来。如何解决这个..

0 投票
1 回答
90 浏览

regex - 如何在日志文件中获取所有使用的 ID

我有一个包含多个 ID 的日志文件,如下所示:

INFO行包含来自特定工具(此处为 Synth)的消息和 ID xx-yyyy

如何使用 Bash 和 Git-Bash 中可用的工具提取日志文件中所有出现的 ID?最后,我需要将输入日志文件拆分为多个文件,仅包含属于同一 ID 的消息。所以 ID 列表必须是唯一的。

我已经在 PowerShell 中编写了相同的脚本。此方法使用正则表达式匹配和为每个新 ID 扩展的 ID 数组。

它分 3 个步骤处理日志文件:

  1. 按类别拆分日志文件
  2. 收集唯一的消息 ID 列表
  3. 根据消息 ID 将每个分类的日志文件拆分为单独的文件

主要问题是:如何创建此唯一消息 ID 列表?(第2步)


PowerShell 脚本:

这是我当前的 Bash 脚本:


这是我通过以下答案改进的最终 Bash 脚本:

0 投票
1 回答
600 浏览

scala - 如何将火花日志文件转换为一个 CSV 文件

我有一组 spark 应用程序日志文件,我希望将每个文件应用程序名称、提交时间、完成时间和 Accumulables 指标作为单行添加到一个 CSV 文件中。使用 SPARK/SCALA 编辑:我很抱歉,但是一个 Spark 应用程序日志文件太大了,不能放在这里,而且非常复杂,一些指标会为每项工作重复更新,我需要所有这些指标的总和——最后一个没有更新- 这是我到目前为止所尝试的

我还没有完成,但通过更多修改获得更好的结果

0 投票
0 回答
31 浏览

bash - 一起使用 Bash Less 和 Grep

我一直在尝试使用以下方式跟踪和过滤日志文件

但似乎文件不是连续读取的,一旦读取整个文件,操作就会停止

我已经尝试使用相同的 tail -f 但这似乎跳过了很多行任何改进的建议

0 投票
1 回答
1743 浏览

python - 从文本文件Python中提取括号之间出现的文本

日志文件:

我有兴趣仅从包含关键字的括号中提取文本,"key"而不是从下面提取与正则表达式模式匹配的所有匹配项。

这是我到目前为止所尝试的:

这将输出与正则表达式匹配的所有事件。output.txt 的所需输出如下所示:

0 投票
0 回答
46 浏览

python - 使用已清理的 csv 日志 python 进行页面点击分析

下面是尝试清理我的 csv 日志的代码,当我运行代码时出现错误;**

Traceback(最近一次调用最后一次):文件“page_hit_analysis.py”,第 12 行,在 line = parser(line)

**

上面的代码适用于未清理的日志,但不适用于已清理的日志。

0 投票
1 回答
1776 浏览

database - PostgreSQL 数据库日志事务

我是去年的大学生,现在正在做我的论文。我的题目是“基于日志分析的索引建议”。该项目将分析 PostgreSQL 事务日志,为将要测试的数据库提供索引推荐。

本研究将通过分析经常访问的属性(使用 SELECT 语句)来开发索引推荐工具。

但我发现很难找到 PostgreSQL 日志文件。我的问题是,我在哪里可以找到 PostgreSQL 日志事务数据集?或者可能是其他数据库日志事务数据集?

0 投票
2 回答
109 浏览

python - 在python中使用正则表达式匹配任何字符和/或未定义的换行符

我必须在 python 中用正则表达式解析一个日志 txt 文件。这是一个 txt 示例(名为file):

20/01/18,08:11 - 彼得:早上好

你好吗?

彼得 20/01/18,09:00 - 卡罗琳:我很好,谢谢。你?

20/01/18,09:01 - 彼得:好

几天前我遇到了一些问题。

现在我很开心

你在工作吗?

20/01/18,09:02 - Caroline:不,我必须去超市买蔬菜

20/01/18,09:12 - 彼得:太好了!

你现在在哪里?

我试图用这个正则表达式解析整个文本:

但是,在 python 中匹配一个或多个换行符时我遇到了问题(例如 Peter 在 09:01 的文本)。我也尝试在https://regex101.com/上寻找可能的解决方案,但没有成功。

你能帮我吗?