statistics - 使用 hadoop 进行简单统计计算的示例

Question

我想扩展现有的聚类算法以处理非常大的数据集，并重新设计它，使其现在可以用数据分区进行计算，这为并行处理打开了大门。我一直在研究 Hadoop 和 Pig，我认为一个很好的实用起点是计算我的数据的基本统计数据，即算术平均值和方差。

我已经在谷歌上搜索了一段时间，但也许我没有使用正确的关键字，而且我还没有真正找到任何可以很好地进行这种计算的入门知识，所以我想我会在这里问。

任何人都可以向我指出一些如何使用 hadoop 计算均值和方差的好示例，和/或提供一些示例代码。

谢谢

score 1 · Accepted Answer

您可能会仔细检查并查看您的集群代码是否可以放入 Cascading。使用现有的 java 库添加新功能、进行连接等非常简单。

如果你喜欢 Clojure，你可能会观看这些 github 项目：http: //github.com/clj-sys

他们将 Clojure 中实现的新算法分层在 Cascading 上（反过来又分层在 Hadoop MapReduce 上）。

score 1 · Accepted Answer

Pig latin 有一个关联的可重用代码库，称为 PiggyBank，它有许多方便的功能。不幸的是，我上次检查时它没有变化，但也许已经改变了。如果不出意外，它可能会提供示例来帮助您开始自己的实现。

我应该注意到，在庞大的数据集上很难以稳定的方式实现方差，所以要小心！

2 回答 2