6

我一直在使用 mallet 来推断包含 100,000 行的文本文件的主题(mallet 格式大约 34 MB)。但是现在我需要在一个包含一百万行(大约 180MB)的文件上运行它,我得到一个 java.lang.outofmemory 异常。有没有办法将文件拆分成更小的文件,并为所有文件中存在的数据建立模型?提前致谢

4

5 回答 5

6

bin/mallet.bat 中增加这一行的值:

set MALLET_MEMORY=1G
于 2012-11-04T21:36:38.170 回答
1

java.lang.outofmemory 异常的发生主要是因为堆空间不足。您可以使用 -Xms 和 -Xmx 设置堆空间,使其不会再次出现。

于 2012-01-09T12:07:10.523 回答
1

该模型仍然会非常庞大​​,即使它是从多个文件中读取的。您是否尝试过增加 java vm 的堆大小?

于 2011-03-02T20:17:47.870 回答
1

I'm not sure about scalability of Mallet to big data, but project http://dragon.ischool.drexel.edu/ can store its data in disk backed persistence therefore can scale to unlimited corpus sizes(with low performance of course)

于 2011-03-02T19:48:16.273 回答
0

鉴于当前 PC 的内存大小,使用 2GB 大的堆应该很容易。在考虑使用集群之前,您应该尝试单机解决方案。

于 2011-03-06T14:48:00.910 回答