问题标签 [logfile-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
463 浏览

r - R split() 函数大小增加问题

我有以下数据集

当我将数据集拆分为:

这里的问题是当我用整个数据集而不是这个样本尝试这个时,大小的巨大增加超过了我的内存

任何有关为什么会发生这种情况以及是否有任何解决方法的见解将不胜感激。

0 投票
4 回答
189 浏览

windows - 计算文件中最常见的未知字符串的出现次数

我有一个充满这样行的大文件......

我不关心任何其他数据,只关心“发送的响应”之后的内容:我想要一个域名最常见出现的排序列表。问题是我不会提前知道所有的域名,所以我不能只搜索字符串。

使用上面的示例,我希望输出符合

...其中 ( ) 中的数字是该事件的计数。

我如何/我可以在 Windows 上使用什么来执行此操作?输入文件是 .txt - 输出文件可以是任何东西。理想情况下是命令行过程,但我真的迷路了,所以我会对任何事情感到满意。

0 投票
1 回答
1054 浏览

machine-learning - 使用机器学习技术进行自动日志文件分析,以更好地了解用户行为

我必须使用机器学习技术自动分析 json 日志文件,以便更好地了解用户行为并识别经常执行的操作以提高应用程序的可用性。日志文件包含文件系统事件、鼠标事件、键盘事件、应用程序事件(启动、终止、活动、停用……)等条目,这些条目在使用特定应用程序期间记录。

记录的条目如下所示:

我已经进入了机器学习的话题,但我不知道该领域的哪个特定技术甚至子领域可以帮助我解决这个问题。也许有人有提示或想法在哪里可以找到正确的信息或解决方案的概念?

0 投票
5 回答
109 浏览

python - 在文件中搜索小时数的最佳方法

我有一个包含时间戳和数据的日志文件(用','分隔)。我想要一个 Python 脚本来解析日志文件以计算每小时发生的数据数量。

以下是日志文件内容的示例:

因此,为此,上午 9 点共有 17 个,上午 10 点有 3 个,依此类推……我该怎么做呢?

0 投票
0 回答
83 浏览

java - 使用多行匹配标准改进日志文件解析器

给定一个有点特殊的日志文件,由以下片段表示:

为了分析自动化 PDF 表单字段转换服务运行的准确度,我需要过滤并计算以下 4 元组的所有出现次数:

在最后的 4 元组之间可以有任意数量的行,可以跳过或添加到无效日志条目列表中。简单的选择标准被硬编码到下面的代码中。

接下来,日志文件应随后拆分为有效条目和无效条目,包括行号。当前程序针对上述示例运行的输出将输出:

这是我的方法:

基本技巧是为此任务引入循环先进先出。虽然简短、快速且运行良好,但我想知道是否可以将其更充分地转换为 Java-8 功能,例如使用 NIO2 和适当的流技术。我不想使用 Guava 或任何其他过度设计的库来完成如此简单的任务。

现在,我特别不喜欢像上面那样获取 LRU 条目的解决方案。我如何能够通过以下方式扩展和使用内部类:

接下来,我真的很想利用 NIO2 的特性,但是我不明白如何最好地将它们集成到我的解决方案中。类似于以下内容:

0 投票
4 回答
3579 浏览

c# - 读取日志文件并提取带有特定文本的行

我有一个不断添加的日志(例如每秒 1-5 行或更多),文件可能会变得相当大 20MB+

示例日志文件:

我将日志文件路径和名称存储在程序的设置中,如下所示:

当我单击一个按钮并读取文件时,我需要打开文件,直到再次单击该按钮以停止该过程,而在读取文件时,我需要将找到的行输出到文本框以显示给用户. 发生这种情况时,父程序仍将写入日志文件。

这是我目前拥有的按钮的代码。

我需要它继续读取文件,直到再次按下按钮,我只需要文件中这样的行

0 投票
1 回答
1698 浏览

c# - 从上次读取位置读取日志文件

这是我的工作代码,我有一个文件监视器监视我的日志文件,当文件更新(它更新很多)时,它会读取日志并将符合正则表达式的行输出到文本框。它的问题是它从头开始读取文件并再次重新打印正则表达式行,所以我在文本框中得到重复的数据。我也不知道我是否设置正确以运行从单独线程读取的文件,因此我的程序在读取大型日志文件时不会“冻结”。

0 投票
1 回答
13115 浏览

python - 在 Python 中打开一个 .log 扩展文件

我正在尝试在 Python 中打开一个 .log 扩展文件,但我一直遇到 IOError。我想知道这是否与扩展有关,因为显然,进入该循环的唯一方法是目录中是否存在“some.log”。

追溯:

0 投票
1 回答
235 浏览

r - 如何在 R 中找到时间差(处理文件所用的时间)?

我有日志数据,它记录了开始日期时间和结束日期时间戳。

日志文件中的数据如下所示 excel 中的 Preapred 数据

当我使用 Rstudio 将数据加载到 R 中时。数据类如下所示。

加载的数据及其数据类型

我正在使用下面的代码行将日期转换为 POSIXlt。

nov$Start.Date1<-as.POSIXlt(as.character(nov$Start.Date1), format="%d-%m-%Y")

str(nov$Start.Time1)

nov$Start.Date1<-as.POSIXlt(as.character(nov$Start.Date1), format="%d-%m-%Y")

nov$Start.Time1<-as.POSIXlt(as.character(nov$Start.Time1), format="%H:%M:%S") nov$Start.Time1<-format(nov$Start.Time1,格式="%H:%M:%S")

nov$Start.Date2<-as.POSIXlt(as.character(nov$Start.Date2), format="%d-%m-%Y")

nov$Start.Time2<-as.POSIXlt(as.character(nov$Start.Time2), format="%H:%M:%S") nov$Start.Time2<-format(nov$Start.Time2,格式="%H:%M:%S")

**

> 我想计算完成时间是 > StartTime2-StartTime1

**

StartTime1 和 StartTime2 现在是 chr 数据类型。

0 投票
2 回答
54 浏览

powershell - 从日志文件中搜索和分组

我有一个包含许多条目的日志文件。其中一些以日期开头,而另一些则不是。我想在该行中搜索本月/上个月的所有条目 "UpgradeResource] part: 3-V12345678-12-"并计算按框分组的结果。实际上从 1 到 9 有 9 个盒子,但是如果我们再买一个盒子,就会有 10 或 11……盒子计数器总是在行尾跟着 -1。

我搜索的行如下所示:

我的结果输出应该是:

我在使用 powershell 方面不是很坚定,并尝试了这个,但出现错误并认为我的方法不正确:

我得到的错误: