python - 动态主题建模的设置数据

翻译自：https://stackoverflow.com/questions/47610985 2017-12-02T18:13:02.193

141 次

2

我正在尝试从 PUBMED 报废的数据中学习动态主题建模（以捕获单词中的语义变化）。我能够以 xml 的形式获取数据，并能够从中提取“抽象”文本和日期信息，并将其保存为 csv 格式。（但这只是数据的一部分。）

获得的格式

年|月|日|摘要文本

我打算为我的模型使用 gensim lda

我以前从来没有真正做过主题建模，需要你的帮助来指导我一步一步完成这个过程。

问题：

csv 是输入 gensim lda 的首选格式吗？
对于动态建模，应该如何在模型中捕获和使用数据的时间方面？
有没有比 csv 文件更好的方法来组织数据？
我应该为此使用正文而不是摘要吗？

希望我能从中学到很多。提前致谢。

0 回答 0