hadoop - 将reducer超出java堆空间

Question

我正在使用 Hadoop 实现一个程序。我的问题是如何处理java空间不足的问题，我在xml文件中添加了一些属性配置，但是没有用。越来越多的减速器对我也不起作用。因为在我的程序中，每个 reducer 都需要大的稀疏整个矩阵，我不允许更改这个逻辑。然而，每个 reducer 都会收到一个以列 id 作为键，列向量作为值的条目。有什么办法可以摆脱这个困境吗？

PS：我首先想到的是reducer会一列一列，这不会导致内存不足的问题。但似乎不是这样。实际上，我正在尝试实现论文中描述的算法。reducer 的算法如下所示。第 11 行是我提到的那一列，每个 reducer 都有矩阵的每一列。在此处输入图像描述

score 1 · Accepted Answer

您使用 hadoop 之类的东西的原因是因为您无法将整个数据集放入内存中。要么不更改逻辑并尝试找到足够大的计算机，要么并行化算法并利用 hadoop。

hadoop - 将reducer超出java堆空间

1 回答 1

Related

Reference