Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想在 Infochimps 下载完整的百万歌曲数据集。我没有使用 AWS,并且我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用 wget,但这需要我很长时间才能下载。有没有更好的方法来下载数据?
还有一种方法可以将数据直接下载到 Hadoop 文件系统,而不是先下载到本地文件系统,然后使用 -copyFromLocal 复制到 HDFS?
请帮忙。
谢谢!
在我看来,最好的方法是使用像Flume或Chukwa这样的数据聚合工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到您的 Hadoop 集群中。不过,您可能需要做一些工作,例如编写自定义源,将数据从源中提取到集群中。
高温高压