我一直在使用 mallet 来推断包含 100,000 行的文本文件的主题(mallet 格式大约 34 MB)。但是现在我需要在一个包含一百万行(大约 180MB)的文件上运行它,我得到一个 java.lang.outofmemory 异常。有没有办法将文件拆分成更小的文件,并为所有文件中存在的数据建立模型?提前致谢
问问题
2375 次
5 回答
6
在bin/mallet.bat 中增加这一行的值:
set MALLET_MEMORY=1G
于 2012-11-04T21:36:38.170 回答
1
java.lang.outofmemory 异常的发生主要是因为堆空间不足。您可以使用 -Xms 和 -Xmx 设置堆空间,使其不会再次出现。
于 2012-01-09T12:07:10.523 回答
1
该模型仍然会非常庞大,即使它是从多个文件中读取的。您是否尝试过增加 java vm 的堆大小?
于 2011-03-02T20:17:47.870 回答
1
I'm not sure about scalability of Mallet to big data, but project http://dragon.ischool.drexel.edu/ can store its data in disk backed persistence therefore can scale to unlimited corpus sizes(with low performance of course)
于 2011-03-02T19:48:16.273 回答
0
鉴于当前 PC 的内存大小,使用 2GB 大的堆应该很容易。在考虑使用集群之前,您应该尝试单机解决方案。
于 2011-03-06T14:48:00.910 回答