背景
我正在尝试使用以下数据和规范文档 = 140 000、单词 = 3000 和主题 = 15 来拟合主题模型。我topicmodels
在 Windows 7 机器(ram 24 GB)上使用 R(3.1.2)中的包, 8 芯)。我的问题是计算只会继续进行,而不会产生任何“收敛”。
我在LDA()
函数中使用默认选项topicmodels
:
运行模型
dtm2.sparse_TM <- LDA(dtm2.sparse, 15)
该模型已经运行了大约 72 小时——并且仍然是我所写的。
问题 所以,我的问题是(a)这是否是正常行为;(b) 如果不是第一个问题,您对做什么有什么建议;(c) 如果第一个问题是肯定的,我怎样才能显着提高计算速度?
附加信息:原始数据包含的不是3000字,而是大约370万字。当我(在同一台机器上)运行它时,它并没有收敛,甚至在几周后也没有。所以我用 300 个单词和 500 个文档(随机选择)运行它,但并不是所有的都能正常工作。我对所有模型都使用了与以前相同的主题和默认值。
因此,对于我当前的模型(请参阅我的问题),我在 tm 包的帮助下删除了稀疏术语。
删除稀疏项
dtm2.sparse <- removeSparseTerms(dtm2, 0.9)
感谢您提前输入阿德尔