我想实现一个用于字数统计的 hadoop reducer。在我的减速器中,我使用哈希表来计算单词。但是如果我的文件非常大,哈希表将使用大量内存。我该如何解决这个问题?(例如,一个有 1000 万行的文件,每个 reducer 接收 1 亿个单词,他如何计算一个哈希表需要 1 亿个键的单词)我当前的实现是在 python 中。有没有减少内存量的聪明方法?
问问题
432 次
我想实现一个用于字数统计的 hadoop reducer。在我的减速器中,我使用哈希表来计算单词。但是如果我的文件非常大,哈希表将使用大量内存。我该如何解决这个问题?(例如,一个有 1000 万行的文件,每个 reducer 接收 1 亿个单词,他如何计算一个哈希表需要 1 亿个键的单词)我当前的实现是在 python 中。有没有减少内存量的聪明方法?