我正在使用隐式数据(零售交易数据 - 将购买的单位数量作为隐式数据)在 Pyspark 中创建一个 ALS 模型。
在将数据投入模型之前,我们是否需要对数据进行某种标准化/规范化?如果不是,它如何处理物品被超买或用户是超买者的情况。例如。牛奶比电视买的多,User1比User2买的少?
任何指针都会有所帮助。谢谢
我正在使用隐式数据(零售交易数据 - 将购买的单位数量作为隐式数据)在 Pyspark 中创建一个 ALS 模型。
在将数据投入模型之前,我们是否需要对数据进行某种标准化/规范化?如果不是,它如何处理物品被超买或用户是超买者的情况。例如。牛奶比电视买的多,User1比User2买的少?
任何指针都会有所帮助。谢谢