hadoop - 使用hadoop进行日志分析，发现错误场景和频繁的重复事务

Question

我有一个业务场景，其中我想要我的应用程序服务器日志，并且我想要完成以下任务 -

找出日志中捕获的错误场景以查找错误代码[在日志中]、异常原因、时间。
某些用户进行的重复交易可能是安全漏洞。
发生上述两种情况时提醒管理员。

我可以使用一些具有批处理的多线程基本 Java 应用程序来做到这一点，但我想使用大数据技术来做到这一点，并且还希望有一些应用程序行为的图形表示。

有人可以建议我使用最好的技术来实现这个非常快速和可扩展的吗？如果可能的话，如何做到这一点的架构？

如果有人帮忙，那就太好了

score 0 · Accepted Answer

您是否考虑过实施大数据解决方案？我有类似的要求。我的数据源是 weblogic 域应用程序日志。这是我的方法。1. 使用 Flume 或其他流工具将 weblogic 应用程序错误日志流式传输到 hadoop。2. 将数据加载到 Spark Dataframe 中。3.编写Spark SQL查询分析错误数据

我们有一个数据库错误日志表。我将使用它作为另一个数据源来关联 Web 逻辑数据库异常。weblogic 错误数据为 CSV 格式，由两个竖线符号 ("||") 分隔。但是，输入数据的问题是，最后一列数据分散到多行，如下所示。Spark 将下一行最后一列的延续视为“新行”，因此加载失败。感谢是否有人对如何处理此问题有任何想法。

||20160704||01:58:32,294||396c0a8e2470e7a21467611910768||com.seic.dataservices.impl.InstrumentSearchDoImpl||[ACTIVE] ExecuteThread: '9' for queue: 0) ....INSTRUMENT_ID(1004915) PRICE_DATE(01 -JUL-16) 在表 TABEL_NAME 中不存在。未找到价格数据.. ORA-06512：在“Qxx_xxx.ERROR_PKG”，第 502 行 ORA-06512：在“Qxx_xxx.IM_PRICING”，第 6221 行 ORA-06512：在第 1 行）

hadoop - 使用hadoop进行日志分析，发现错误场景和频繁的重复事务

1 回答 1

Related

Reference