1

我尝试从 github(按照 1-2-3 步骤)运行此代码,该代码识别了 Sarah Palin 的 14,500 封电子邮件中的 30 个主题。作者发现的话题在这里。但是,Stanford Topic Modeling Toolbox 并没有为我生成 lda-output 目录。它生成了 lda-86a58136-30-2b1a90a6,但此文件夹中的 summary.txt 仅显示主题的初始分配,而不是最终主题。知道如何使用发现的主题的最终摘要生成 lda-output 目录吗?提前致谢!

4

1 回答 1

0

您是否尝试过此处发布的说明?

请注意,我看到最初的调查员使用 Sarah Palin 的电子邮件训练了模型,然后使用该训练过的模型来分析 Sarah Palin 的电子邮件。虽然我不是 LDA 专家,但这通常带有“找到你所拥有的东西”的味道。

在大多数学科中,培训将在一组已知的项目上进行,这些项目已由专家根据判别式进行分类。这意味着培训将包括从其他来源提供一组已知可能主题的数据,然后使用 LDA 库来确定与“学习”数据库中主题的距离。

无论如何,祝你好运。

如果您遇到特定问题,请发布错误,以及您为解决该错误而采取的步骤。很少有人会花时间尝试在没有方向的情况下重现问题(纠正问题的典型先决条件),甚至无法确定他们遇到的问题是否与您的问题相似。

于 2012-04-20T15:32:24.273 回答