在使用 MLlib 的 Naive Baye 分类实现创建用于文档分类的 TFIDF 向量时,我遇到了内存溢出问题。
为所有术语收集 idf 时会发生内存溢出和 GC 问题。为了了解规模,我正在从 HBase 读取大约 615,000 个(大约 4GB 的文本数据)小型文档,并运行具有 8 个内核和 6GB 执行程序内存的 spark 程序。我曾尝试提高并行度和随机播放内存分数,但无济于事。
我该如何解决这个OOM问题?
谢谢
在使用 MLlib 的 Naive Baye 分类实现创建用于文档分类的 TFIDF 向量时,我遇到了内存溢出问题。
为所有术语收集 idf 时会发生内存溢出和 GC 问题。为了了解规模,我正在从 HBase 读取大约 615,000 个(大约 4GB 的文本数据)小型文档,并运行具有 8 个内核和 6GB 执行程序内存的 spark 程序。我曾尝试提高并行度和随机播放内存分数,但无济于事。
我该如何解决这个OOM问题?
谢谢