6

我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案,其简单性令人印象深刻。它对 LSI 有真正的在线实现,但对 LDA 没有。对于 twitter 等不断变化的内容流,动态主题模型是理想的选择。有没有什么办法,甚至是一种破解——一种实现甚至一种策略,我可以使用 Gensim 来达到这个目的?

是否有任何其他 python 实现(最好)从 Gensim 派生或独立?我更喜欢python,因为我想尽快开始,但是如果有一些工作的最佳解决方案,请提及。

谢谢。

4

3 回答 3

3

Gensim ( http://radimrehurek.com/gensim/models/dtmmodel.html ) 有一个用于 orig 的 python 包装器。C++ 代码。

于 2014-12-31T04:46:00.197 回答
3

Gensim 中的 DTM 包装器正在工作,但目前没有一个文档特别完整。在 Gensim 方面,最有用的是隐藏docs/notebooks. 这向您展示了所有输入变量的外观。有几点需要注意:

  • DTM 模型已移至gensim.models.wrappers.dtmmodel
  • initialize_lda=True由于DTM 代码中的错误,必须设置(这将是未来的默认设置——PR #676

您还需要 DTM 本身的工作编译版本(您提供该可执行文件的路径)。您可以尝试使用来自 github repo 的适当可执行文件但如果这不起作用,您可能需要通过运行包含的makefile.

于 2016-05-02T16:28:33.377 回答
2

在与 David Blei 和 John Lafferty 讨论过这个问题后,现在的答案是否定的,没有。

Sean Gerrish 的DTM 实现适用于已记录的内存泄漏,但适用于可管理的集合。

于 2014-04-23T17:20:40.147 回答