我正在尝试根据文档的相似性对文档进行聚类,其想法是匹配两个文档中的相似单词并将该数字除以两个文档中的单词总数。每个值都存储在一个二维数组中:
1.0000 0.1548 0.0968 0.0982 0.2750 0.1239 0.0891 0.1565
0.1548 1.0000 0.0960 0.0898 0.1631 0.0756 0.0874 0.2187
0.0957 0.2300 1.0000 0.4964 0.0980 0.2004 0.4582 0.2315
0.0971 0.2234 0.4946 1.0000 0.0995 0.2010 0.4533 0.2244
0.2793 0.1631 0.0986 0.1001 1.0000 0.1324 0.0904 0.1662
0.1726 0.0756 0.2149 0.2157 0.1795 1.0000 0.2019 0.0819
0.0880 0.2108 0.4582 0.4550 0.0899 0.1880 1.0000 0.2124
0.1556 0.2094 0.0950 0.0884 0.1662 0.0764 0.0867 1.0000
因此,如果有 8 个文档,则将每个文档与其他文档进行比较的结果存储在上面的表格中,数组的每个索引都显示一个文档。因此文档 0,0 1,1 2,2 ... 将始终具有值 1,因为它们是相同的。
我如何对相似的文档进行聚类,即谁的价值观彼此接近?