java - 木槌主题建模

Question

我一直在使用 mallet 来推断包含 100,000 行的文本文件的主题（mallet 格式大约 34 MB）。但是现在我需要在一个包含一百万行（大约 180MB）的文件上运行它，我得到一个 java.lang.outofmemory 异常。有没有办法将文件拆分成更小的文件，并为所有文件中存在的数据建立模型？提前致谢

score 6 · Accepted Answer

6

在bin/mallet.bat 中增加这一行的值：

set MALLET_MEMORY=1G

于 2012-11-04T21:36:38.170 回答

score 1 · Accepted Answer

java.lang.outofmemory 异常的发生主要是因为堆空间不足。您可以使用 -Xms 和 -Xmx 设置堆空间，使其不会再次出现。

score 1 · Accepted Answer

该模型仍然会非常庞大，即使它是从多个文件中读取的。您是否尝试过增加 java vm 的堆大小？

score 1 · Accepted Answer

I'm not sure about scalability of Mallet to big data, but project http://dragon.ischool.drexel.edu/ can store its data in disk backed persistence therefore can scale to unlimited corpus sizes(with low performance of course)

score 0 · Accepted Answer

鉴于当前 PC 的内存大小，使用 2GB 大的堆应该很容易。在考虑使用集群之前，您应该尝试单机解决方案。

java - 木槌主题建模

5 回答 5

Related

Reference