python - pyLDAvis.sklearn.prepare() - 函数中的参数“mds”是什么意思？

Question

我想可视化使用 LDA 算法进行的主题建模。我使用名为“pyldavis”的 python 模块和 jupyter notebook 作为环境。

import pyLDAvis.sklearn
...
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer)
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer, mds='mmds')
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer, mds='tsne')

它确实工作正常，但我并不真正了解 mds 参数......即使在阅读了文档之后：

mds :function 或函数的字符串表示

以 topic_term_dists 作为输入并输出 n_topics × 2 距离矩阵的函数。输出近似于主题之间的距离。有关默认函数的详细信息，请参见 js_PCoA()。如果为后两者安装了 sklearn 包，则字符串表示当前接受 pcoa（或大写变体）、mmds（或大写变体）和 tsne（或大写变体）。

有人知道btw有什么区别吗？mds='pcoa'，mds='mmds'，mds='tsne'？

谢谢！

score 2 · Accepted Answer

通过 Jensen-Shannon Divergence &

pcoa：主坐标分析（又名经典多维缩放）

mmds:Metric 多维缩放

tsne:t-分布式随机邻域嵌入

score 0 · Accepted Answer

简单地说：文本数据，当转化为数值表格数据时，通常是高维的。另一方面，屏幕上的可视化是二维的 (2D)。因此，需要一种降维方法将维数减少到 2。

mds代表多维缩放。该参数的可能值为：

mmds（度量多维缩放），
tsne（t-分布随机邻域嵌入），和
pcoa（主坐标分析），

都是降维方法。

您可能更熟悉但未在上面列出的另一种降维方法是 PCA（主成分分析）。他们都有类似的想法，即在不丢失太多信息的情况下降低维度，并得到不同理论和实现的支持。

python - pyLDAvis.sklearn.prepare() - 函数中的参数“mds”是什么意思？

2 回答 2

Related

Reference