好的,所以通常主题模型(例如 LDA、pLSI 等)用于以无监督的方式推断可能存在于一组文档中的主题。我想知道是否有人对如何将我的问题硬塞进 LDA 框架有任何想法,因为有非常好的工具可用于解决 LDA 问题。
为了彻底起见,我输入了以下信息:
- 一组文件(来自一个有机体的 DNA 片段,其中每个片段都是一个文件)
- 在这种情况下,一个文档只能有一个主题
- 一组主题(来自其他生物的 DNA 片段)
- 在这种情况下,单词是三元组(现在)
我要回答的问题是:对于当前的文档,它的主题是什么?换句话说,对于给定的 DNA 片段,它最有可能来自哪个其他生物体(同一物种)?自从发生片段交换以来,可能已经发生了突变等,因此这两个片段将不相同。
这与经典 LDA 模型的主要区别在于我提前知道了主题。
我最初的想法是采用 pLSA 模型(http://en.wikipedia.org/wiki/PLSA)并明确设置主题节点,然后执行标准 EM 学习(如果有一个像样的库可以处理贝叶斯参数使用潜在变量学习...),然后使用任何算法进行推理(这无关紧要,因为模型无论如何都是多树)。
编辑:我想我已经解决了,对于任何可能偶然发现这个问题的人。我发现您可以使用带标签的 LDA 并将每个标签分配给每个文档。由于每个标签都与主题一一对应,因此您实际上是在对算法说:对于每个文档,从给定的一组主题(标签集)中选择主题,而不是自己编造。