问题标签 [log-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - 按时间戳对数据进行分组的理想数据库
我正在测试一些用于处理一些基本日志分析的 noSql 解决方案。我正在寻找针对读取进行优化的东西。数据有一个时间戳和我想要计算和求和的其他一些列。我需要对年、月、日、小时和其他一些列的值进行分组和求和的能力。我的数据可能会在大约 5000 万条记录以上运行,并且可能来自单个服务器(不需要分片或水平扩展),但 RESTful API 很容易与其他应用程序绑定。
我目前正在尝试 couchDB,但想知道是否有更适合此任务的东西。
我可能可以改进这张地图和整体性能,但想检查一些其他选项。
我没有使用关系数据库,因为条目的数据因事件类型而异,我希望能够动态处理数据,而不是每次记录新事件类型时都必须更新架构。
debugging - 辅助人工检查日志文件
菜鸟问题在这里。我一直在检查大量日志文件以尝试查明应用程序中的错误。具体来说,我试图将成功场景与失败场景进行比较......但由于日志量很大,很难确定哪些日志消息是“好”的,哪些是“坏的”。(我不是开发人员,所以我不能只更改日志。)
理想情况下,我会喜欢一个工具,我可以...
- 加载日志文件并手动指定哪些条目与成功场景相关联
- 然后将根据给定行是否出现在“成功”场景中来格式化日志文件的其余部分。(理想情况下,它可以进行模糊匹配,因此完全匹配(当然,没有时间戳)可能是一种颜色,而紧密匹配(不同的值)可能是另一种颜色。
这样可以轻松浏览故障场景并识别与故障条件相关的消息。把它想象成一个智能差异。
我看过的大多数工具(例如,Splunk、OtrosLogViewer)似乎都专注于自动化的服务器端部署。虽然这可行,但我喜欢更轻的东西以便快速分析。
这样的事情存在吗?欢迎/赞赏任何指针。
logging - 在托运人节点中使用 Logstash/Redis 保证交付日志
您如何看待人们,将 Redis 放置在每个 Logstash 托运人节点中以确保有保证的日志交付?
linux - linux服务器最好的日志分析工具是什么?
我目前正在设置生成报告并将它们上传到外部 SFTP 的服务器。我需要一个可以免费并在 Linux 服务器上运行的日志分析器。哪一个是最好的解决方案?
我读了很多关于 SumoLogic 的文章,但不确定这是否是要使用的工具..?
matomo - 将 apache 日志导入 piwik
我正在将我的站点分析从 GA 切换到 Piwik,并希望合并所有我可以的历史数据。我已经连接了我拥有的所有 apache 日志文件。但是,我并不清楚接下来要做什么,而且 Piwik 文档也无济于事。它说了一些类似的东西
我的连接日志文件 all.logs 在 log-analytics 文件夹中。我本以为我只需要发布
但这会引发错误消息。当我也提供相关站点的 URL 时,我收到一条错误消息,指出它(自然地)返回了一个它不喜欢的 HTML 文档。
我将非常感谢任何能够让我在这里走上正轨的人。
java - java中用于日志分析应用程序的数据库 - 2014
我想创建一个 java 应用程序来处理和分析实时流日志。我还必须实现一些复杂的过滤器功能。我正在研究寻找最适合的数据库。
我遇到了许多便携式数据库,例如mongodb、hbase、h2等等。其中,mongodb 似乎是一个更好的选择。但是对于我的要求,可能同时发生插入和选择。在我读到的某个地方,mongodb并不擅长处理并发。
我敢肯定,提高数据库的性能将在应用程序的整体性能中发挥至关重要的作用。我遇到了许多关于相同的堆栈溢出链接。但问题是,所有这些都是在 2 年或更长时间前被问到的。mongodb可以处理并发吗?是否有任何其他便携式数据库比 mongodb 更好?请帮忙。
ftp - 在 Splunk 中发现异常的行为分析
我想通过将历史数据(比如上个月的数据)与今天的数据进行比较以发现异常情况,从而在 Splunk 中执行行为分析/异常检测。
我正在分析 FTP 日志,例如,我希望拥有所有用户的历史基线/报告,其中包含 IP/城市和记录时间。异常可以定义为同一用户从不同的 IP 范围/城市和不同的时区登录。命令:异常、异常值、分析字段在 Splunk 中可用,但这些命令通常适用于搜索数据的时间范围,而不是根据我们的需要与用户的历史数据进行比较。
如何在 Splunk 中实现这一点?
python - Python regex 没有从我的日志文件中提取子字符串
我在用着
在 Python 2.7 中提取子字符串:
从这样的日志文件中:
它不工作,我需要使用正则表达式来完成这项任务,否则我会使用 split() 它。我究竟做错了什么?
apache-spark - 如何从 Apache Spark 中定期附加的日志文件中获取数据?
我有一个 Apache 访问日志文件,其中包含一些数据并且还在不断增加。我想使用 Apache Spark Streaming API 分析这些数据。
Spark 对我来说是新的,我创建了一个程序,在其中我使用 jssc.textFileStream(directory)
函数来获取日志数据。但它不符合我的要求。
请向我建议一些使用 spark 分析该日志文件的方法。
这是我的代码。
此代码不会从现有文件返回任何数据。这仅在我创建新文件时有效,但是当我更新该新文件时,程序再次不会返回更新的数据。
c - 通过 20-30 GB 的多个日志文件搜索模式的最快方法是什么
我正在执行日志分析,我希望将其自动化,以便它每天运行并报告结果。分析在标准工作站、8 核、高达 32 GB 的可用 RAM 上运行。原型基于 GNU Grep (--mmap)、Sqlite(在 RAM 磁盘上)和 Bash(用于参数)。
一个问题是我需要多次浏览这些文件。如果我找到一个模式匹配,我会向上搜索相关的东西。这可能会变得递归,并且每次它重新读取千兆字节的数据。
C中是否有任何快速方法/ lib用于内存支持的分段多线程文件读/写?
当我查看“内存中”搜索(在加载的段内上下移动,或在必要时加载更多)时,我觉得这是一个非常普遍的要求。