-1

数据集:我得到了单个客户每天使用产品的分钟数,并试图对这些数据进行聚类以找到常见的使用模式。

我的问题:我如何格式化数据,例如,一年使用率高的高级用户与我结束数据之前只能使用设备一个月的不同高级用户看起来相同收藏?

到目前为止,我已经将每个客户变成了一个数组,其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始,到用户第一年使用后结束。对于聚类模型,单元格中的所有条目必须是双精度值(例如使用 200.0 分钟)。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗?如果不是,你会建议什么?

4

1 回答 1

1

对于您希望两个用户(一个在一年内每天都使用该产品,而另一个在一个月内经常使用该产品)的问题,请创建一个新条目,其值为:

avg_usage per time_bin

time_bin 可以是一个月、一天或另一个最适合您需要的时间箱。这样,使用产品的用户,假设一年每天 200 分钟,将获得:

200 * 30 * 12 / 12 = 6000 minutes per month

上个月才加入的另一个用户也将获得,使用完全相同的用户将获得:

200 * 30 * 1 / 1 = 6000 minutes per month.

这样一来,您何时开始使用该产品并不重要,唯一重要的是使用率。

您可能会考虑到一件重要的事情,即产品可能会被遗忘一段时间。例如,一台电脑,而我正在休假。那些日子我没有使用我的电脑,没有(也许)影响我对这个产品的一般使用。因此,根据您的数据、产品和直觉,您可能会考虑像我提到的那样消除差距,而不是在计算中将其考虑在内。

用户使用您的产品的时间量可能是某种信号,但如果他确实只是在一段时间前才开始使用它,并且一直使用到今天,这可能是您需要考虑的事情,并且对于这种使用,这种平均分箱技术可能会有所帮助。

于 2016-04-27T18:11:05.110 回答