我想扩展现有的聚类算法以处理非常大的数据集,并重新设计它,使其现在可以用数据分区进行计算,这为并行处理打开了大门。我一直在研究 Hadoop 和 Pig,我认为一个很好的实用起点是计算我的数据的基本统计数据,即算术平均值和方差。
我已经在谷歌上搜索了一段时间,但也许我没有使用正确的关键字,而且我还没有真正找到任何可以很好地进行这种计算的入门知识,所以我想我会在这里问。
任何人都可以向我指出一些如何使用 hadoop 计算均值和方差的好示例,和/或提供一些示例代码。
谢谢
我想扩展现有的聚类算法以处理非常大的数据集,并重新设计它,使其现在可以用数据分区进行计算,这为并行处理打开了大门。我一直在研究 Hadoop 和 Pig,我认为一个很好的实用起点是计算我的数据的基本统计数据,即算术平均值和方差。
我已经在谷歌上搜索了一段时间,但也许我没有使用正确的关键字,而且我还没有真正找到任何可以很好地进行这种计算的入门知识,所以我想我会在这里问。
任何人都可以向我指出一些如何使用 hadoop 计算均值和方差的好示例,和/或提供一些示例代码。
谢谢
您可能会仔细检查并查看您的集群代码是否可以放入 Cascading。使用现有的 java 库添加新功能、进行连接等非常简单。
如果你喜欢 Clojure,你可能会观看这些 github 项目:http: //github.com/clj-sys
他们将 Clojure 中实现的新算法分层在 Cascading 上(反过来又分层在 Hadoop MapReduce 上)。
Pig latin 有一个关联的可重用代码库,称为 PiggyBank,它有许多方便的功能。不幸的是,我上次检查时它没有变化,但也许已经改变了。如果不出意外,它可能会提供示例来帮助您开始自己的实现。
我应该注意到,在庞大的数据集上很难以稳定的方式实现方差,所以要小心!