0

我试图了解Top2Vec 的工作原理。我对在论文中找不到答案的代码有一些疑问。该算法所做的总结是:

  • 将单词和向量嵌入到相同的语义空间中并对其进行规范化。这通常有 300 多个维度。
  • 使用 UMAP 和余弦相似度将它们投影到 5 维空间中。
  • 使用 HDBSCAN 和投影数据上的欧几里德度量将主题创建为集群的质心。

让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被规范化,并且规范化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。

这导致两个问题:

考虑到他们通过标准化改变了主题向量,他们将如何计算最接近的词以找到每个主题的关键字?

在将主题创建为集群后,他们尝试对非常相似的主题进行重复数据删除。为此,他们使用余弦相似度。这对于归一化主题向量是有意义的。同时,它是规范化主题向量引入的​​不一致性的扩展。我在这里错过了什么吗?

4

1 回答 1

0

我从源代码中得到了我的问题的答案。我打算删除这个问题,但我会以任何方式留下答案。

这是我错过的部分,在我的问题中是错误的。主题向量是属于同一主题的所有文档向量的算术平均值。主题向量属于单词和文档向量所在的同一个语义空间。

这就是为什么归一化它们是有意义的,因为所有单词和文档向量都被归一化,并且在更高的原始语义空间中查找重复主题时使用余弦度量。

于 2022-02-16T16:13:35.223 回答