我正在尝试对大量文档进行聚类,并希望随后根据每个聚类中最常见的共享关键字或关键短语来解释每个聚类的特征。为了使聚类可行,我将使用降维方法,例如 LSA (SVD) 或 doc2vec。
我可以看到几个可能的降维特征矩阵的路径:
名词短语 (NPs)、TF-IDF、LSA (SVD) 的 POS 标记、分块(浅解析)
n-gram、TF-IDF、LSA (SVD)
doc2vec 一路。
这些以及其他方法的优点和缺点是什么?最终最好的方法是什么?
我正在尝试对大量文档进行聚类,并希望随后根据每个聚类中最常见的共享关键字或关键短语来解释每个聚类的特征。为了使聚类可行,我将使用降维方法,例如 LSA (SVD) 或 doc2vec。
我可以看到几个可能的降维特征矩阵的路径:
名词短语 (NPs)、TF-IDF、LSA (SVD) 的 POS 标记、分块(浅解析)
n-gram、TF-IDF、LSA (SVD)
doc2vec 一路。
这些以及其他方法的优点和缺点是什么?最终最好的方法是什么?