我最近可以访问大量服务器日志数据(在新工作中)。我在大学时有一些机器学习的经验。日志数据包括服务器日志、数据库访问日志等。我想知道可以从这样的数据中进行什么样的学习。
我尝试的一件小事是根据过去一周的数据预测一天中某个小时的请求数量,这看起来不错,但这有点微不足道。所以,
- 从这些数据中可以进行什么样的学习?
- 可能是根据以前垃圾邮件发送者的某些使用模式来预测 IP 对广告进行垃圾邮件点击的概率(是的,该公司对此很感兴趣)?
- 可能正在预测什么时候流量会猛增。
- 是否有任何现有的工具/项目专门利用?
- 有什么有趣的资源/论文谈论类似的事情吗?
- 此外,服务器上特定时间与数据相关的进程活动。这对学习有用吗?