问题标签 [log-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
247 浏览

cassandra - 按时间戳对数据进行分组的理想数据库

我正在测试一些用于处理一些基本日志分析的 noSql 解决方案。我正在寻找针对读取进行优化的东西。数据有一个时间戳和我想要计算和求和的其他一些列。我需要对年、月、日、小时和其他一些列的值进行分组和求和的能力。我的数据可能会在大约 5000 万条记录以上运行,并且可能来自单个服务器(不需要分片或水平扩展),但 RESTful API 很容易与其他应用程序绑定。

我目前正在尝试 couchDB,但想知道是否有更适合此任务的东西。

我可能可以改进这张地图和整体性能,但想检查一些其他选项。

我没有使用关系数据库,因为条目的数据因事件类型而异,我希望能够动态处理数据,而不是每次记录新事件类型时都必须更新架构。

0 投票
0 回答
57 浏览

debugging - 辅助人工检查日志文件

菜鸟问题在这里。我一直在检查大量日志文件以尝试查明应用程序中的错误。具体来说,我试图将成功场景与失败场景进行比较......但由于日志量很大,很难确定哪些日志消息是“好”的,哪些是“坏的”。(我不是开发人员,所以我不能只更改日志。)

理想情况下,我会喜欢一个工具,我可以...

  1. 加载日志文件并手动指定哪些条目与成功场景相关联
  2. 然后将根据给定行是否出现在“成功”场景中来格式化日志文件的其余部分。(理想情况下,它可以进行模糊匹配,因此完全匹配(当然,没有时间戳)可能是一种颜色,而紧密匹配(不同的值)可能是另一种颜色。

这样可以轻松浏览故障场景并识别与故障条件相关的消息。把它想象成一个智能差异。

我看过的大多数工具(例如,Splunk、OtrosLogViewer)似乎都专注于自动化的服务器端部署。虽然这可行,但我喜欢更轻的东西以便快速分析。

这样的事情存在吗?欢迎/赞赏任何指针。

0 投票
2 回答
514 浏览

logging - 在托运人节点中使用 Logstash/Redis 保证交付日志

您如何看待人们,将 Redis 放置在每个 Logstash 托运人节点中以确保有保证的日志交付?

0 投票
1 回答
6223 浏览

linux - linux服务器最好的日志分析工具是什么?

我目前正在设置生成报告并将它们上传到外部 SFTP 的服务器。我需要一个可以免费并在 Linux 服务器上运行的日志分析器。哪一个是最好的解决方案?

我读了很多关于 SumoLogic 的文章,但不确定这是否是要使用的工具..?

0 投票
1 回答
2878 浏览

matomo - 将 apache 日志导入 piwik

我正在将我的站点分析从 GA 切换到 Piwik,并希望合并所有我可以的历史数据。我已经连接了我拥有的所有 apache 日志文件。但是,我并不清楚接下来要做什么,而且 Piwik 文档也无济于事。它说了一些类似的东西

我的连接日志文件 all.logs 在 log-analytics 文件夹中。我本以为我只需要发布

但这会引发错误消息。当我也提供相关站点的 URL 时,我收到一条错误消息,指出它(自然地)返回了一个它不喜欢的 HTML 文档。

我将非常感谢任何能够让我在这里走上正轨的人。

0 投票
1 回答
107 浏览

java - java中用于日志分析应用程序的数据库 - 2014

我想创建一个 java 应用程序来处理和分析实时流日志。我还必须实现一些复杂的过滤器功能。我正在研究寻找最适合的数据库。

我遇到了许多便携式数据库,例如mongodbhbaseh2等等。其中,mongodb 似乎是一个更好的选择。但是对于我的要求,可能同时发生插入和选择。在我读到的某个地方,mongodb并不擅长处理并发

我敢肯定,提高数据库的性能将在应用程序的整体性能中发挥至关重要的作用。我遇到了许多关于相同的堆栈溢出链接。但问题是,所有这些都是在 2 年或更长时间前被问到的。mongodb可以处理并发吗?是否有任何其他便携式数据库比 mongodb 更好?请帮忙。

0 投票
1 回答
383 浏览

ftp - 在 Splunk 中发现异常的行为分析

我想通过将历史数据(比如上个月的数据)与今天的数据进行比较以发现异常情况,从而在 Splunk 中执行行为分析/异常检测。

我正在分析 FTP 日志,例如,我希望拥有所有用户的历史基线/报告,其中包含 IP/城市和记录时间。异常可以定义为同一用户从不同的 IP 范围/城市和不同的时区登录。命令:异常、异常值、分析字段在 Splunk 中可用,但这些命令通常适用于搜索数据的时间范围,而不是根据我们的需要与用户的历史数据进行比较。

如何在 Splunk 中实现这一点?

0 投票
3 回答
118 浏览

python - Python regex 没有从我的日志文件中提取子字符串

我在用着

在 Python 2.7 中提取子字符串:

从这样的日志文件中:

它不工作,我需要使用正则表达式来完成这项任务,否则我会使用 split() 它。我究竟做错了什么?

0 投票
1 回答
1955 浏览

apache-spark - 如何从 Apache Spark 中定期附加的日志文件中获取数据?

我有一个 Apache 访问日志文件,其中包含一些数据并且还在不断增加。我想使用 Apache Spark Streaming API 分析这些数据。

Spark 对我来说是新的,我创建了一个程序,在其中我使用 jssc.textFileStream(directory)函数来获取日志数据。但它不符合我的要求。

请向我建议一些使用 spark 分析该日志文件的方法。

这是我的代码。

此代码不会从现有文件返回任何数据。这仅在我创建新文件时有效,但是当我更新该新文件时,程序再次不会返回更新的数据。

0 投票
1 回答
123 浏览

c - 通过 20-30 GB 的多个日志文件搜索模式的最快方法是什么

我正在执行日志分析,我希望将其自动化,以便它每天运行并报告结果。分析在标准工作站、8 核、高达 32 GB 的可用 RAM 上运行。原型基于 GNU Grep (--mmap)、Sqlite(在 RAM 磁盘上)和 Bash(用于参数)。

一个问题是我需要多次浏览这些文件。如果我找到一个模式匹配,我会向上搜索相关的东西。这可能会变得递归,并且每次它重新读取千兆字节的数据。

C中是否有任何快速方法/ lib用于内存支持的分段多线程文件读/写?

当我查看“内存中”搜索(在加载的段内上下移动,或在必要时加载更多)时,我觉得这是一个非常普遍的要求。