0

我想在 Infochimps 下载完整的百万歌曲数据集。我没有使用 AWS,并且我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用 wget,但这需要我很长时间才能下载。有没有更好的方法来下载数据?

还有一种方法可以将数据直接下载到 Hadoop 文件系统,而不是先下载到本地文件系统,然后使用 -copyFromLocal 复制到 HDFS?

请帮忙。

谢谢!

4

1 回答 1

2

在我看来,最好的方法是使用像FlumeChukwa这样的数据聚合工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到您的 Hadoop 集群中。不过,您可能需要做一些工作,例如编写自定义源,将数据从源中提取到集群中。

高温高压

于 2013-04-29T00:45:04.593 回答