“log-analysis”的相关标签问题

0 投票

1 回答

247 浏览

cassandra - 按时间戳对数据进行分组的理想数据库

我正在测试一些用于处理一些基本日志分析的 noSql 解决方案。我正在寻找针对读取进行优化的东西。数据有一个时间戳和我想要计算和求和的其他一些列。我需要对年、月、日、小时和其他一些列的值进行分组和求和的能力。我的数据可能会在大约 5000 万条记录以上运行，并且可能来自单个服务器（不需要分片或水平扩展），但 RESTful API 很容易与其他应用程序绑定。

我目前正在尝试 couchDB，但想知道是否有更适合此任务的东西。

我可能可以改进这张地图和整体性能，但想检查一些其他选项。

我没有使用关系数据库，因为条目的数据因事件类型而异，我希望能够动态处理数据，而不是每次记录新事件类型时都必须更新架构。

2014-07-22T20:19:03.630

0 投票

0 回答

57 浏览

debugging - 辅助人工检查日志文件

菜鸟问题在这里。我一直在检查大量日志文件以尝试查明应用程序中的错误。具体来说，我试图将成功场景与失败场景进行比较......但由于日志量很大，很难确定哪些日志消息是“好”的，哪些是“坏的”。（我不是开发人员，所以我不能只更改日志。）

理想情况下，我会喜欢一个工具，我可以...

加载日志文件并手动指定哪些条目与成功场景相关联
然后将根据给定行是否出现在“成功”场景中来格式化日志文件的其余部分。（理想情况下，它可以进行模糊匹配，因此完全匹配（当然，没有时间戳）可能是一种颜色，而紧密匹配（不同的值）可能是另一种颜色。

这样可以轻松浏览故障场景并识别与故障条件相关的消息。把它想象成一个智能差异。

我看过的大多数工具（例如，Splunk、OtrosLogViewer）似乎都专注于自动化的服务器端部署。虽然这可行，但我喜欢更轻的东西以便快速分析。

这样的事情存在吗？欢迎/赞赏任何指针。

debugging logging log-analysis

2014-08-26T09:57:22.400

0 投票

2 回答

514 浏览

logging - 在托运人节点中使用 Logstash/Redis 保证交付日志

您如何看待人们，将 Redis 放置在每个 Logstash 托运人节点中以确保有保证的日志交付？

logging redis logstash log-shipping log-analysis

2014-08-28T19:31:42.647

0 投票

1 回答

6223 浏览

linux - linux服务器最好的日志分析工具是什么？

我目前正在设置生成报告并将它们上传到外部 SFTP 的服务器。我需要一个可以免费并在 Linux 服务器上运行的日志分析器。哪一个是最好的解决方案？

我读了很多关于 SumoLogic 的文章，但不确定这是否是要使用的工具..？

linux log-analysis

2014-10-08T19:21:58.697

0 投票

1 回答

2878 浏览

matomo - 将 apache 日志导入 piwik

我正在将我的站点分析从 GA 切换到 Piwik，并希望合并所有我可以的历史数据。我已经连接了我拥有的所有 apache 日志文件。但是，我并不清楚接下来要做什么，而且 Piwik 文档也无济于事。它说了一些类似的东西

我的连接日志文件 all.logs 在 log-analytics 文件夹中。我本以为我只需要发布

但这会引发错误消息。当我也提供相关站点的 URL 时，我收到一条错误消息，指出它（自然地）返回了一个它不喜欢的 HTML 文档。

我将非常感谢任何能够让我在这里走上正轨的人。

matomo log-analysis

2014-10-10T09:59:06.070

0 投票

1 回答

107 浏览

java - java中用于日志分析应用程序的数据库 - 2014

我想创建一个 java 应用程序来处理和分析实时流日志。我还必须实现一些复杂的过滤器功能。我正在研究寻找最适合的数据库。

我遇到了许多便携式数据库，例如mongodb、hbase、h2等等。其中，mongodb 似乎是一个更好的选择。但是对于我的要求，可能同时发生插入和选择。在我读到的某个地方，mongodb并不擅长处理并发。

我敢肯定，提高数据库的性能将在应用程序的整体性能中发挥至关重要的作用。我遇到了许多关于相同的堆栈溢出链接。但问题是，所有这些都是在 2 年或更长时间前被问到的。mongodb可以处理并发吗？是否有任何其他便携式数据库比 mongodb 更好？请帮忙。

java mongodb hbase log-analysis database

2014-10-11T14:57:57.043

0 投票

1 回答

383 浏览

ftp - 在 Splunk 中发现异常的行为分析

我想通过将历史数据（比如上个月的数据）与今天的数据进行比较以发现异常情况，从而在 Splunk 中执行行为分析/异常检测。

我正在分析 FTP 日志，例如，我希望拥有所有用户的历史基线/报告，其中包含 IP/城市和记录时间。异常可以定义为同一用户从不同的 IP 范围/城市和不同的时区登录。命令：异常、异常值、分析字段在 Splunk 中可用，但这些命令通常适用于搜索数据的时间范围，而不是根据我们的需要与用户的历史数据进行比较。

如何在 Splunk 中实现这一点？

ftp analytics behavior splunk log-analysis

2014-10-21T06:09:28.733

0 投票

3 回答

118 浏览

python - Python regex 没有从我的日志文件中提取子字符串

我在用着

在 Python 2.7 中提取子字符串：

从这样的日志文件中：

它不工作，我需要使用正则表达式来完成这项任务，否则我会使用 split() 它。我究竟做错了什么？

python regex parsing log-analysis

2015-02-11T18:51:56.490

0 投票

1 回答

1955 浏览

apache-spark - 如何从 Apache Spark 中定期附加的日志文件中获取数据？

我有一个 Apache 访问日志文件，其中包含一些数据并且还在不断增加。我想使用 Apache Spark Streaming API 分析这些数据。

Spark 对我来说是新的，我创建了一个程序，在其中我使用 jssc.textFileStream(directory)函数来获取日志数据。但它不符合我的要求。

请向我建议一些使用 spark 分析该日志文件的方法。

这是我的代码。

此代码不会从现有文件返回任何数据。这仅在我创建新文件时有效，但是当我更新该新文件时，程序再次不会返回更新的数据。

apache-spark spark-streaming access-log log-analysis

2015-02-16T13:00:16.470

0 投票

1 回答

123 浏览

c - 通过 20-30 GB 的多个日志文件搜索模式的最快方法是什么

我正在执行日志分析，我希望将其自动化，以便它每天运行并报告结果。分析在标准工作站、8 核、高达 32 GB 的可用 RAM 上运行。原型基于 GNU Grep (--mmap)、Sqlite（在 RAM 磁盘上）和 Bash（用于参数）。

一个问题是我需要多次浏览这些文件。如果我找到一个模式匹配，我会向上搜索相关的东西。这可能会变得递归，并且每次它重新读取千兆字节的数据。

C中是否有任何快速方法/ lib用于内存支持的分段多线程文件读/写？

当我查看“内存中”搜索（在加载的段内上下移动，或在必要时加载更多）时，我觉得这是一个非常普遍的要求。

c multithreading in-memory text-segmentation log-analysis

2015-03-20T14:08:09.370

问题标签 [log-analysis]

Reference