好的,所以我正在编写一个程序,不幸的是,它需要使用一个巨大的数据结构来完成它的工作,但是它在初始化期间由于“内存不足错误”而失败。虽然我完全理解这意味着什么以及为什么它是一个问题,但我很难克服它,因为我的程序需要使用这个大型结构,而我不知道任何其他方式来存储它。
该程序首先索引我提供的大量文本文件。这工作正常。
然后它使用这个索引来初始化一个大的二维数组。该数组将有 n² 个条目,其中“n”是文本语料库中唯一单词的数量。对于我正在测试的相对较小的块(大约 60 个文件),它需要生成大约 30,000x30,000 个条目。一旦我在完整的预期语料库上运行它,这可能会更大。
每次索引后,它都会在初始化数据结构(稍后处理)时始终失败。
我做过的事情包括:
- 修改我的代码以使用原语
int[]
而不是TreeMap
- 消除冗余结构等...
- 另外,我已经运行程序
-Xmx2g
以最大化我分配的内存
我相当有信心这不会是一个简单的代码行解决方案,但很可能需要一种非常新的方法。我正在寻找这种方法是什么,有什么想法吗?
谢谢,B。