machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？

Question

Dirichlet 分布用于文档建模。

我从这篇文章中读到：

不同的 Dirichlet 分布可用于对不同作者的文档或不同主题的文档进行建模。

那么我们如何判断它是针对不同作者还是针对不同主题进行建模呢？这很重要，因为在文档聚类任务中，它直接决定了聚类结果的语义。

而且我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面，因此它可能是任何其他潜在/潜在方面。

任何人都可以对此有所了解吗？

score 2 · Accepted Answer

它根本不是对作者或主题建模，而是潜在特征，它们很可能映射到真实世界的概念，如作者或主题。对于任何潜在特征，您可以查看哪些文档关联性最强，并且可能会直观地解释该特征“关于”什么。

score 2 · Accepted Answer

听起来你在考虑 LDA 时犯了一个常见的错误。

LDA不是文档聚类方法。给定模型，任何将主题分配给文档的尝试都是不正确的；事实上，任何将主题分配给单词的尝试也是不正确的。相反，LDA 是一种查看文档集合的方式，并查看主题在这些文档中的混合方式。换句话说，每个文档没有一个主题，它有一个主题分布。这不是关于文档的哪个主题的不确定性属于，而是该文档中使用的主题的比例。给定一个文档，您可以计算该文档中主题混合的分布；给定一组文档，您可以推断出每个文档中的混合内容以及最能描述该集合的主题。每个词也不确定它来自哪个主题，因为根据定义，每个主题都可以发出每个可能的词，但它们的发射更有可能来自某些主题而不是其他主题。

要回答您关于主题是否反映作者、主题、风格、注册或其他内容的原始问题：主题并未明确代表其中任何一个。它们代表单词的分组。每个主题都是词汇表上的一个分布，因此不同的主题代表不同的用词倾向：在同质作者但异质主题的集合中，这些可能对应于“主题”（即主题）的直观概念；在一组异质作者但同质主题的集合中，不同的主题可能与不同的作者相关。在混合主题、作者、语域、流派等的集合中，它们可能根本不对应任何可观察到的特征。

相反，主题是一个抽象结构，所有最终主题都告诉您，假设模型正确，您可以重建原始输入的最佳主题是什么。可悲的事实是，这可能与您希望主题对应的内容不对应，因为您真正感兴趣的事物（例如作者身份）与您不感兴趣的其他事物（注册，主题，流派）共变您提供的收藏。除非您明确标记所有可能导致词汇使用变化的事物，如在词袋模型中表达的那样，然后设计一个模型来解释所有事物（肯定不是普通 LDA），否则您就赢了不能保证引出的主题与你关心的维度上的分组之间的对应关系。

machine-learning - 我们怎么知道狄利克雷分布描述的是主题而不是其他东西？

2 回答 2

Related

Reference