0

我对这个论坛很陌生,第一次提出问题。我正在为一个项目处理电子商务数据集 - 包括这两个变量 - 页面访问 (0/1) 和退出 (num var 值 -1,0,2,3......)次唯一 ID 已退出特定页面。有6个这样的页面有信息。

页面退出中的 -1 是没有页面访问的页面。但是,我使用页面退出来计算退出率等其他指标,我不确定如何删除/替换 -1 而不会丢失信息或以其他方式放置。我无法将其设为 0 - bcos,这意味着页面上没有页面退出/访问者。即使我删除并创建了一个分类变量 - 表示没有访问,停留,退出..我仍然不知道用什么替换 -1。

我该怎么做……我需要在这里做任何特征工程吗?

4

1 回答 1

0

创建一个特征,表示用户是否从未以二进制 1/0 访问过该页面,然后只有一列从0 - n表示退出次数(如果退出为 -1,则为 1,否则为 0)。创建附加列后,我将退出从 -1 设置为 0。

但是,我认为您需要考虑更多 -1 的含义(或提供更多信息),当您的预期算法将运行时,人们目前是否仍在页面上?您的数据是否存在于多个页面并且 -1 表示他们从未访问过该页面?

于 2018-12-25T07:35:49.463 回答