我有一个如下所示的 documentTermMatrix:
artikel naam product personeel loon verlof
doc 1 1 1 2 1 0 0
doc 2 1 1 1 0 0 0
doc 3 0 0 1 1 2 1
doc 4 0 0 0 1 1 1
包装内tm
中,可以计算 2 个文档之间的汉明距离。但是现在我想对所有汉明距离小于 3 的文档进行聚类。所以在这里我希望集群 1 是文档 1 和 2,而集群 2 是文档 3 和 4。有可能这样做吗?