我在具有 64gb RAM、32 个内核和 500GB 磁盘空间的系统上运行 Jupyter notebook。
大约 700k 文档将被建模为 600 个主题。词汇量为48000字。使用了 100 次迭代。
spark = SparkSession.builder.appName('LDA').master("local[*]").config("spark.local.dir", "/data/Data/allYears/tempAll").config("spark.driver.memory","50g").config("spark.executor.memory","50g").getOrCreate()
dataset = spark.read.format("libsvm").load("libsm_file.txt")
lda = LDA(k=600, maxIter=100 , optimizer='em' , seed=2 )
lda.setDocConcentration([1.01])
lda.setTopicConcentration(1.001)
model = lda.fit(dataset)
运行 10 小时后出现磁盘配额超出错误