我有一个购买数据集
user_id, item_id
==================
1, 1
1, 2
1, 3
2, 2
2, 3
3, 8
3, 9
4, 8
4, 9
由此,我想创建一些“集群”。从数据来看,用户 1 和用户 2 非常相似,用户 3 和用户 4 非常相似。
我不知道如何使用 Python 中的机器学习创建这种分析。
例如,我猜它可能是距离
1, 2, 3, 4
1, -, ?, ?, ?
2, ?, -, ?, ?
3, ?, ?, -, ?
4, ?, ?, ?, -
所以我可以确定每个用户与其他用户的相似程度。
我想要的是根据他们的购买来确定各种用户是否属于某些组。例如,如果一些用户购买了许多与婴儿相关的物品,他们可能是新妈妈/父亲,而购买许多与软件相关的书籍的用户可能是 IT 专业人士/学生。