假设有4组:
s1={1,2,3,4};
s2={2,3,4};
s3={2,3,4,5};
s4={1,3,4,5};
有没有标准的度量来表示这组4组的相似度?
感谢您对 Jaccard 方法的建议。然而,它似乎是成对的。如何计算整组集合的相似度?
假设有4组:
s1={1,2,3,4};
s2={2,3,4};
s3={2,3,4,5};
s4={1,3,4,5};
有没有标准的度量来表示这组4组的相似度?
感谢您对 Jaccard 方法的建议。然而,它似乎是成对的。如何计算整组集合的相似度?
成对地,您可以计算两组的Jaccard 距离。它只是两个集合之间的距离,如果它们是空间中的布尔向量,其中 {1, 2, 3…} 都是单位向量。
你的问题不是很具体。但我想你的意思是他们之间的“编辑距离”?即你需要改变s1 到s2 需要多少?
查看有关编辑距离的 Wikipedia 文章。
正如 Tobu 所说,我会使用Jaccard Index,它只是交集除以集合的并集。
你可以计算每组之间的交集的大小