hadoop - 下载 280 GB 百万歌曲数据集

Question

我想在 Infochimps 下载完整的百万歌曲数据集。我没有使用 AWS，并且我的大学提供了一个集群，我想将数据下载到该集群。我目前正在使用 wget，但这需要我很长时间才能下载。有没有更好的方法来下载数据？

还有一种方法可以将数据直接下载到 Hadoop 文件系统，而不是先下载到本地文件系统，然后使用 -copyFromLocal 复制到 HDFS？

请帮忙。

谢谢！

score 2 · Accepted Answer

在我看来，最好的方法是使用像Flume或Chukwa这样的数据聚合工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此，这些工具还允许您将数据直接摄取到您的 Hadoop 集群中。不过，您可能需要做一些工作，例如编写自定义源，将数据从源中提取到集群中。

高温高压

1 回答 1