问题标签 [logfile-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dns - 如何读取 DNS 查询日志文件
我有一个 DNS 内部查询日志文件,我想对其进行分析,所以 onw 记录如下所示:
18-Jun-2017 04:00:10.139 client @XXXXXXXXXXXX ip-address#number (ip-address): view internal: query: ip-address IN AAAA + (ip-address in ipv4)
我对此真的很陌生,所以我尝试在线搜索,但我找不到记录中的“+”是什么意思,据我了解,AAAA应该代表ipv6 ip格式,为什么我得到以下ipv4地址下面呢?
有人可以向我解释这条记录的含义或我可以自己阅读的一些链接吗?
非常感谢 !!
python - 使用 Pandas 扩展时间序列事件
问题
我正在寻找有关如何使其更加 Pythonic 并提高效率的建议。
我有一个包含事件的数据框,每个事件至少有一个开始和结束时间戳。我正在扩展记录数,以便新表在间隔重叠的每一小时都有一条记录。
这与QlikView中的IntervalMatch 函数基本相同。
示例:18:00-20:00 的事件扩展为两条不同的记录,一条用于 18:00-19:00,另一条用于 19:00-20:00。
当前解决方案
我有一个完全有效的解决方案,但我认为它相当难看,而且在 > 100k 行和 10-20 列的大型数据集上速度很慢。
使用一些示例数据,interval_match()
可以像这样使用该函数:
我的愿望是
- 提高效率,最好使用内置的 Pandas 函数或一些 numpy 魔法。
- 不必像我今天在 interval_split 函数中那样处理列。只需操作并扩展整个数据框。
感谢任何建议或帮助。
bash - shell脚本未运行但命令行正在运行
我有一个错误日志文件,其内容为 -
我有命令将提取日期和通知,警告消息
它完全工作正常,我得到了预期的输出但是,我想将开始日期和结束日期作为命令行参数输入,为此,我将脚本编写为 -
但它没有返回任何东西。没有错误信息什么都没有..只是提示再次到来。如何解决这个..
regex - 如何在日志文件中获取所有使用的 ID
我有一个包含多个 ID 的日志文件,如下所示:
每INFO
行包含来自特定工具(此处为 Synth)的消息和 ID xx-yyyy
。
如何使用 Bash 和 Git-Bash 中可用的工具提取日志文件中所有出现的 ID?最后,我需要将输入日志文件拆分为多个文件,仅包含属于同一 ID 的消息。所以 ID 列表必须是唯一的。
我已经在 PowerShell 中编写了相同的脚本。此方法使用正则表达式匹配和为每个新 ID 扩展的 ID 数组。
它分 3 个步骤处理日志文件:
- 按类别拆分日志文件
- 收集唯一的消息 ID 列表
- 根据消息 ID 将每个分类的日志文件拆分为单独的文件
主要问题是:如何创建此唯一消息 ID 列表?(第2步)
PowerShell 脚本:
这是我当前的 Bash 脚本:
这是我通过以下答案改进的最终 Bash 脚本:
scala - 如何将火花日志文件转换为一个 CSV 文件
我有一组 spark 应用程序日志文件,我希望将每个文件应用程序名称、提交时间、完成时间和 Accumulables 指标作为单行添加到一个 CSV 文件中。使用 SPARK/SCALA 编辑:我很抱歉,但是一个 Spark 应用程序日志文件太大了,不能放在这里,而且非常复杂,一些指标会为每项工作重复更新,我需要所有这些指标的总和——最后一个没有更新- 这是我到目前为止所尝试的
我还没有完成,但通过更多修改获得更好的结果
bash - 一起使用 Bash Less 和 Grep
我一直在尝试使用以下方式跟踪和过滤日志文件
但似乎文件不是连续读取的,一旦读取整个文件,操作就会停止
我已经尝试使用相同的 tail -f 但这似乎跳过了很多行任何改进的建议
python - 从文本文件Python中提取括号之间出现的文本
日志文件:
我有兴趣仅从包含关键字的括号中提取文本,"key"
而不是从下面提取与正则表达式模式匹配的所有匹配项。
这是我到目前为止所尝试的:
这将输出与正则表达式匹配的所有事件。output.txt 的所需输出如下所示:
python - 使用已清理的 csv 日志 python 进行页面点击分析
下面是尝试清理我的 csv 日志的代码,当我运行代码时出现错误;**
Traceback(最近一次调用最后一次):文件“page_hit_analysis.py”,第 12 行,在 line = parser(line)
**
上面的代码适用于未清理的日志,但不适用于已清理的日志。
database - PostgreSQL 数据库日志事务
我是去年的大学生,现在正在做我的论文。我的题目是“基于日志分析的索引建议”。该项目将分析 PostgreSQL 事务日志,为将要测试的数据库提供索引推荐。
本研究将通过分析经常访问的属性(使用 SELECT 语句)来开发索引推荐工具。
但我发现很难找到 PostgreSQL 日志文件。我的问题是,我在哪里可以找到 PostgreSQL 日志事务数据集?或者可能是其他数据库日志事务数据集?
python - 在python中使用正则表达式匹配任何字符和/或未定义的换行符
我必须在 python 中用正则表达式解析一个日志 txt 文件。这是一个 txt 示例(名为file
):
20/01/18,08:11 - 彼得:早上好
你好吗?
彼得 20/01/18,09:00 - 卡罗琳:我很好,谢谢。你?
20/01/18,09:01 - 彼得:好
几天前我遇到了一些问题。
现在我很开心
你在工作吗?
20/01/18,09:02 - Caroline:不,我必须去超市买蔬菜
20/01/18,09:12 - 彼得:太好了!
你现在在哪里?
我试图用这个正则表达式解析整个文本:
但是,在 python 中匹配一个或多个换行符时我遇到了问题(例如 Peter 在 09:01 的文本)。我也尝试在https://regex101.com/上寻找可能的解决方案,但没有成功。
你能帮我吗?