machine-learning - 我应该使用哪种算法来匹配模式或查找数据集之间的交集？

Question

我在 x 和 y 轴上绘制了 personID 和 VaccinationsID。我想将那些接种疫苗选择最相似的 personID 分组。我正在尝试使用聚类机器学习算法。但是我不确定我应该使用这个算法还是用户协同过滤。

我的目标是实现 Jaccard 索引，即找到 10000 个人之间的交叉点或相似点，并形成聚类并标记它们。根据相似程度，我需要对personsID进行分组。谁能告诉我哪种方法有效？如果对数百万数据使用聚类是可行的

我添加了图表的屏幕截图

score 0 · Accepted Answer

接种次数为整数。

只需按此值对数据进行分区，无需聚类。

每个接种过 7 次疫苗的人都进入列表 7。

score 0 · Accepted Answer

经过大量分析，我使用了K-modes聚类算法。基于差异，形成集群。以下是有关 K 模式算法如何工作的视频的链接。[ https://www.youtube.com/watch?v=b39_vipRkUo]

2 回答 2