数据集:我得到了单个客户每天使用产品的分钟数,并试图对这些数据进行聚类以找到常见的使用模式。
我的问题:我如何格式化数据,例如,一年使用率高的高级用户与我结束数据之前只能使用设备一个月的不同高级用户看起来相同收藏?
到目前为止,我已经将每个客户变成了一个数组,其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始,到用户第一年使用后结束。对于聚类模型,单元格中的所有条目必须是双精度值(例如使用 200.0 分钟)。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗?如果不是,你会建议什么?