我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数:主题数。我怎么能确定这个?
我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号?并将我的聚类结果与路透社的比较?
但是在生产中,在我实际基于主题进行聚类之前,我怎么知道主题的数量。这有点像鸡蛋问题。
我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数:主题数。我怎么能确定这个?
我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号?并将我的聚类结果与路透社的比较?
但是在生产中,在我实际基于主题进行聚类之前,我怎么知道主题的数量。这有点像鸡蛋问题。