问题标签 [clickstream]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

32 问题

0 投票

1 回答

77 浏览

pandas - 实时对点击流数据进行数据预处理

我正在开发一个实时检测网络用户活动异常的项目。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID（唯一用户 ID）、点击 URL（网页 URL）、点击文本（用户点击的网站中的文本/功能）和信息（用户输入的任何信息）。该项目类似于入侵检测系统 (IDS)。我正在使用 python 3.6，我有以下查询，

考虑到数据集中的所有属性都是分类值，这是进行数据预处理的最佳方法。
可以应用热编码或标签编码等编码方法，但必须实时处理数据，这使其难以应用
根据项目要求，将 3 列（单击 URL、单击文本和键入的信息）视为特征列。

我真的很困惑如何处理数据预处理。任何见解或建议将不胜感激

2021-06-22T04:34:15.707

0 投票

0 回答

23 浏览

python - 点击流和相似度矩阵

我有一个序列列表，表示通过网站的用户导航路径。具有以下形式：

S1 = [2,5,3,7,3]

S2= [2,7,3,9,4,3,5,6,1]

等等……</p>

如您所见，序列的长度不必相同。我正在尝试计算一个相似度矩阵以作为聚类算法的输入，在本例中为 DBSCAN。我遇到的问题是我在互联网上找到的每个示例，使用的序列都具有相同的长度。所以我试图解决的主要挑战是使用不同长度的序列计算相似度矩阵。我会很感激一些帮助！

python matrix sequence similarity clickstream

2022-02-09T17:42:43.643

1 2 3 4 5 6 7 8 9 10

问题标签 [clickstream]

pandas - 实时对点击流数据进行数据预处理

python - 点击流和相似度矩阵

Reference