问题标签 [log-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
analytics - piwik 日志导入无效的日志行
我是 piwik 的新手,正在尝试导入一堆日志。我需要有关日志格式正则表达式的帮助。日志中的示例行是:
"1.1.1.1" 2.2.2.2 - myuser [09/Dec/2012:04:03:29 -0500] "GET /signon.html HTTP/1.1" 304 "http://www.example.com/example" " Mozilla/5.0 (Windows NT 6.1; WOW64; rv:9.0.1) Gecko/20100101 Firefox/9.0.1"
我的日志格式正则表达式如下所示:
我一直在收到所有“忽略的请求”和“无效的日志行”。例如:
日志导入摘要
如何修复日志格式正则表达式?
蒂亚丹
hadoop - 海星或splunk
hiall 我的目标是分析 Hadoop 的日志文件,有两个工具 starfish(开源)和 splunk(商业产品)。有谁知道选择哪一个的利弊。我真的很感谢你的回答。谢谢
apache-kafka - 淘宝开源项目Metamorphosis和Timetunnel有什么区别?
我想建立一个日志聚合系统,我找到了淘宝开发的这些工具。它们都可以用来收集日志以进行进一步的处理和分析。它们之间有什么不同?
statistics - 如何分析大于 30m 测量值的日志
考虑一个接收金融交易交易的 Java 应用程序,通过应用多项检查来确定其价值,例如该交易是否在合同和法律约束下被允许。该应用程序实现了一个 JMS 消息处理程序以在一个队列上接收消息,并实现第二个队列以将消息发送回消费者。
为了测量响应时间并启用后处理性能分析,应用程序记录几个步骤的开始和结束时间,例如接收消息、处理、准备和将答案发送回客户端。大约有。应用程序每天收到 300 万条消息,因此是这个时间测量数量的倍数(每天大约 1800 万条记录的测量)。每个测量包含以下数据:测量的 ID(例如 RECEIVE_START/END、PROCESS_START/END、SEND_START/END)、java.lang.system.nanoTime() 给出的时间戳、唯一的消息 ID。时间测量被发送到日志文件。
为了找到处理时间,日志文件每天都会被转换并存储在 MySQL 数据库中。这是通过一系列 Python 脚本完成的,这些脚本获取原始日志数据、转换并将其存储到 MySQL 表中,其中每条记录对应一个处理过的消息,每个测量值在一列中(即表按唯一消息对记录进行分组ID)。
我的问题是:分析这个相对较大的数据集(考虑一个月或几个月的日志数据)的最佳策略和工具是什么?特别是我想计算和绘制:
a) 在选定的时间范围内(例如每月、每天、每小时),按照响应时间(例如 SEND_END - RECEIVE_START)的测量分布。
b) 在选定时间段(例如日、周、月、年)内每个时间单位(秒、小时、日、周、月)的消息频率
任何关于您自己经验的提示或报告都将受到赞赏。
linux - 如何使用 AWK 从 Web 日志中收集 IP 和用户代理信息?
我有一个日志文件,其中包含如下文本:
我想将所有 ip 和用户代理信息收集到一个文件中:
我怎么能用awk做到这一点?
我知道awk '{print $1}'
可以列出所有 ip 并且awk -F\" '{print $6}'
可以列出所有用户代理,但我不知道如何将它们组合成输出。
file - shell脚本中的CSV文件日期处理
我有一个包含两列的 csv 日志文件,每列都有请求(第一列)和响应(第二列)的时间戳。
以下是一些示例数据:
我想计算完整文件的两列(响应 - 请求)差异的平均值。该文件一天可以包含数百万个条目。
我正在寻找一种使用 shell 脚本的方法。请帮忙。
谢谢 Fedorqui,我试过你的脚本:
它给了我以下结果:
我需要以毫秒为单位的差异。
logging - 自动日志分析和警报生成
我想为我正在考虑的集中式日志记录项目提供一些设计建议。我有许多组件在各种服务器上生成日志。Apache Flume 看起来像是流式传输到中央日志服务器的明智选择,最有可能进入弹性搜索实例以进行查询和分析。
这是我的问题:我想提供一个脚本引擎来监听到达中央服务器的日志事件流。作为 Flume 中的拦截器,或者作为 elasticsearch 的插件,或者完全其他的东西,这样做是否有意义?
java - 使用日志分析
我正在使用 java 开发一个 RESTful API 并希望获得使用情况统计信息。所以我设置了一个过滤器,以定义的格式记录所有经过身份验证的请求,它目前只是将数据写入日间滚动文件。
我希望有一个管理面板来分析并从此日志中获取数据,例如特定用户提出了多少请求。
我能想到的最好的事情是有一个 JAVA api 来获取我需要的数据,是否有一个开源或一个很好的框架可以方便或最好的方法是自己开发一些东西?
nginx - goaccess 分析师是 nginx 日志 - 解析 url
我正在使用我的 ngnix 日志的 goaccess 统计信息。但问题是相同的 url 有不同的参数。
我想在像“/this/is/example/test.html”这样的统计url之后忽略参数。
如何做到这一点或其他一些工具可以做到这一点?谢谢。
django - 如何进行 HTTP 请求日志记录以解决登录错误
我开发并维护了一个有 2000 多个用户的付费出版物。最常见的支持请求与登录有关。大多数情况下,这些可以通过几封支持电子邮件来解决。但是,每隔一段时间,就会有一个奇怪的用户无法登录。作为最后的手段,支持人员会重置用户密码,验证他们是否可以自己登录并将新凭据发送给用户。我们时不时地遇到仍然无法登录的用户。那时我已经没有故障排除工具了。
所以我想要一个工具:
完整记录所有 HTTP 请求(用户密码除外)。
让我在日志中搜索包含用户名的登录页面的 POST 请求。
让我看看我在步骤 2 中在特定时间范围内找到的来自 IP 地址的所有请求,然后非常仔细地分析这些请求。
而且我需要能够进行智能日志轮换,例如:“保留可以放入 30 GB 的所有内容,然后开始扔掉旧的东西”。
我们的出版物恰好是用 Django 和 nginx 构建的,但我认为我正在寻找的工具不会特定于这些工具。而且我绝对不想将所有请求数据与我的 Django 应用程序放在同一个 SQL 数据库中。
到目前为止,我已经找到了 Logstash,但我还没有仔细研究它是否适合我。对我来说重要的不是获得所有使用情况、用户趋势、转化渠道等的漂亮图表。我需要的是更好的方法来解决影响单个用户的问题。