我正在尝试从 PUBMED 报废的数据中学习动态主题建模(以捕获单词中的语义变化)。我能够以 xml 的形式获取数据,并能够从中提取“抽象”文本和日期信息,并将其保存为 csv 格式。(但这只是数据的一部分。)
获得的格式
年|月|日|摘要文本
我打算为我的模型使用 gensim lda
我以前从来没有真正做过主题建模,需要你的帮助来指导我一步一步完成这个过程。
问题:
- csv 是输入 gensim lda 的首选格式吗?
- 对于动态建模,应该如何在模型中捕获和使用数据的时间方面?
- 有没有比 csv 文件更好的方法来组织数据?
- 我应该为此使用正文而不是摘要吗?
希望我能从中学到很多。提前致谢。