我在 x 和 y 轴上绘制了 personID 和 VaccinationsID。我想将那些接种疫苗选择最相似的 personID 分组。我正在尝试使用聚类机器学习算法。但是我不确定我应该使用这个算法还是用户协同过滤。
我的目标是实现 Jaccard 索引,即找到 10000 个人之间的交叉点或相似点,并形成聚类并标记它们。根据相似程度,我需要对personsID进行分组。谁能告诉我哪种方法有效?如果对数百万数据使用聚类是可行的
我添加了图表的屏幕截图
我在 x 和 y 轴上绘制了 personID 和 VaccinationsID。我想将那些接种疫苗选择最相似的 personID 分组。我正在尝试使用聚类机器学习算法。但是我不确定我应该使用这个算法还是用户协同过滤。
我的目标是实现 Jaccard 索引,即找到 10000 个人之间的交叉点或相似点,并形成聚类并标记它们。根据相似程度,我需要对personsID进行分组。谁能告诉我哪种方法有效?如果对数百万数据使用聚类是可行的
我添加了图表的屏幕截图
接种次数为整数。
只需按此值对数据进行分区,无需聚类。
每个接种过 7 次疫苗的人都进入列表 7。
经过大量分析,我使用了K-modes聚类算法。基于差异,形成集群。以下是有关 K 模式算法如何工作的视频的链接。[ https://www.youtube.com/watch?v=b39_vipRkUo]