问题标签 [clickstream]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
77 浏览

pandas - 实时对点击流数据进行数据预处理

我正在开发一个实时检测网络用户活动异常的项目。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统 (IDS)。我正在使用 python 3.6,我有以下查询,

  1. 考虑到数据集中的所有属性都是分类值,这是进行数据预处理的最佳方法。
  2. 可以应用热编码或标签编码等编码方法,但必须实时处理数据,这使其难以应用
  3. 根据项目要求,将 3 列(单击 URL、单击文本和键入的信息)视为特征列。

我真的很困惑如何处理数据预处理。任何见解或建议将不胜感激

0 投票
0 回答
23 浏览

python - 点击流和相似度矩阵

我有一个序列列表,表示通过网站的用户导航路径。具有以下形式:

S1 = [2,5,3,7,3]

S2= [2,7,3,9,4,3,5,6,1]

等等……</p>

如您所见,序列的长度不必相同。我正在尝试计算一个相似度矩阵以作为聚类算法的输入,在本例中为 DBSCAN。我遇到的问题是我在互联网上找到的每个示例,使用的序列都具有相同的长度。所以我试图解决的主要挑战是使用不同长度的序列计算相似度矩阵。我会很感激一些帮助!