我是 ML 和数据挖掘领域的新手,我正在寻找帮助和指导来发现我的日志文件中的异常行为。
假设我有一个 cvs 文件,它记录用户会话的开始时间和结束时间以及他们处理过的策略编号,类似于下面。
开始日期、用户名、结束日期、Policy_numbers 2018-01-02 10:01、user1、2018-01-02
10:10、PO-123
2018-01-02 10:05、user2、2018-01-02 10:20、 PO-456
2018-01-02 10:11,用户 1,2018-01-02 10:45,PO-789 | PO-999(| 是这里的分隔符)
是否有任何 Python 或 java 库/模块/代码或开源应用程序来识别模式,例如:大多数用户在上午 10 点到下午 5 点期间登录,每月平均会话数,平均会话长度和……, 我希望应用程序能够识别各种模式,并以列表或方式向我提出建议,以便我可以选择那些对业务很重要的模式。
(如果我识别出模式,那么我可以通过一些查询找到答案,而无需模式识别——这很容易做到)
那么有没有办法通过这些公认的模式来训练系统以发现异常行为,例如:找到在下午 5:00 之后登录的用户,发现会话花费的时间比平均时间长,并且......
感谢您的任何想法。