我在为聚类找到合适的相似性度量时遇到了问题。我有大约 3000 个集合数组,其中每个集合都包含特定领域的特征(例如,数字、颜色、日期、字母等)。我会用一个例子来解释我的问题。
假设我只有 2 个数组(a1 和 a2),我想找到它们之间的相似性。每个数组包含 4 个集合(在我的实际问题中,每个数组有 250 个集合(域)),一个集合可以是空的。
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
我使用Jaccard指数(表示为 J)进行了相似性度量:
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
注意:我除以集合总数(在上面的示例中为 4)以保持 0 和 1 之间的相似性。
Is this a proper similarity measure and are there any flaws in this approach
. 我分别为每个集合应用 Jaccard 索引,因为我想比较相关域之间的相似性(即颜色与颜色等......)
我不知道我的问题有任何其他适当的相似性度量。更远,can I use this similarity measure for clustering purpose?