我试图了解Top2Vec 的工作原理。我对在论文中找不到答案的代码有一些疑问。该算法所做的总结是:
- 将单词和向量嵌入到相同的语义空间中并对其进行规范化。这通常有 300 多个维度。
- 使用 UMAP 和余弦相似度将它们投影到 5 维空间中。
- 使用 HDBSCAN 和投影数据上的欧几里德度量将主题创建为集群的质心。
让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被规范化,并且规范化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。
这导致两个问题:
考虑到他们通过标准化改变了主题向量,他们将如何计算最接近的词以找到每个主题的关键字?
在将主题创建为集群后,他们尝试对非常相似的主题进行重复数据删除。为此,他们使用余弦相似度。这对于归一化主题向量是有意义的。同时,它是规范化主题向量引入的不一致性的扩展。我在这里错过了什么吗?