如何将文档排列到一个空间(例如多个网格)中,以便放置它们的位置包含有关它们与其他文档的相似程度的信息。我研究了 K-means 聚类,但如果数据很大,它的计算量会有点大。我正在寻找诸如散列文档内容之类的东西,以便它们可以容纳在大空间中,并且相似的文档将具有相似的散列并且它们之间的距离会很小。在这种情况下,很容易找到与给定文档相似的文档,而无需做很多额外的工作。
结果可能类似于下图。在这种情况下,音乐文件接近电影文件,但远离与计算机相关的文件。盒子可以被认为是整个文件的世界。
任何帮助将不胜感激。
谢谢
jvc007