1

我想可视化使用 LDA 算法进行的主题建模。我使用名为“pyldavis”的 python 模块和 jupyter notebook 作为环境。

import pyLDAvis.sklearn
...
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer)
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer, mds='mmds')
pyLDAvis.sklearn.prepare(lda_tf, dtm_tf, tf_vectorizer, mds='tsne')

它确实工作正常,但我并不真正了解 mds 参数......即使在阅读了文档之后:

mds :function 或函数的字符串表示

以 topic_term_dists 作为输入并输出 n_topics × 2 距离矩阵的函数。输出近似于主题之间的距离。有关默认函数的详细信息,请参见 js_PCoA()。如果为后两者安装了 sklearn 包,则字符串表示当前接受 pcoa(或大写变体)、mmds(或大写变体)和 tsne(或大写变体)。

有人知道btw有什么区别吗?mds='pcoa',mds='mmds',mds='tsne'?

谢谢!

4

2 回答 2

2

通过 Jensen-Shannon Divergence &

pcoa:主坐标分析(又名经典多维缩放)

mmds:Metric 多维缩放

tsne:t-分布式随机邻域嵌入

于 2019-05-22T06:56:39.130 回答
0

简单地说:文本数据,当转化为数值表格数据时,通常是高维的。另一方面,屏幕上的可视化是二维的 (2D)。因此,需要一种降维方法将维数减少到 2。

mds代表多维缩放。该参数的可能值为:

  • mmds(度量多维缩放),
  • tsne(t-分布随机邻域嵌入),和
  • pcoa(主坐标分析),

都是降维方法。

您可能更熟悉但未在上面列出的另一种降维方法是 PCA(主成分分析)。他们都有类似的想法,即在不丢失太多信息的情况下降低维度,并得到不同理论和实现的支持。

于 2021-10-19T01:17:10.190 回答