我正在开发一个实时检测网络用户活动异常的项目。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统 (IDS)。我正在使用 python 3.6,我有以下查询,
- 考虑到数据集中的所有属性都是分类值,这是进行数据预处理的最佳方法。
- 可以应用热编码或标签编码等编码方法,但必须实时处理数据,这使其难以应用
- 根据项目要求,将 3 列(单击 URL、单击文本和键入的信息)视为特征列。
我真的很困惑如何处理数据预处理。任何见解或建议将不胜感激