2

我正在尝试从 PUBMED 报废的数据中学习动态主题建模(以捕获单词中的语义变化)。我能够以 xml 的形式获取数据,并能够从中提取“抽象”文本和日期信息,并将其保存为 csv 格式。(但这只是数据的一部分。)

获得的格式

年|月|日|摘要文本

我打算为我的模型使用 gensim lda

我以前从来没有真正做过主题建模,需要你的帮助来指导我一步一步完成这个过程。

问题:

  1. csv 是输入 gensim lda 的首选格式吗?
  2. 对于动态建模,应该如何在模型中捕获和使用数据的时间方面?
  3. 有没有比 csv 文件更好的方法来组织数据?
  4. 我应该为此使用正文而不是摘要吗?

希望我能从中学到很多。提前致谢。

4

0 回答 0