0

我正在查看 data.seattle.gov 数据集,我想知道如何将所有这些大型原始数据发送到 hadoop 集群。我在 azure 上使用 hadoop。

4

2 回答 2

0

在 Windows Azure 中,您可以将数据集(非结构化数据等)放在 Windows Azure 存储中,然后从 Hadoop 集群访问它

查看博客文章:Windows Azure 上的 Apache Hadoop:从 Hadoop 集群连接到 Windows Azure 存储:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/01/05/apache-hadoop-on-windows-azure-connecting-to-windows-azure-storage-your-hadoop-cluster.aspx

您还可以从 Azure 市场获取数据,例如政府数据集等。

http://social.technet.microsoft.com/wiki/contents/articles/6857.how-to-import-data-to-hadoop-on-windows-azure-from-windows-azure-marketplace.aspx

于 2012-08-18T23:58:25.943 回答
0

看起来 data.seattle.gov 是一个独立的数据服务,而不是建立在公共云之上。他们有自己的 Restful API 用于数据访问。
其中我认为最简单的方法是将感兴趣的数据下载到您的 hadoop 集群或 S3,然后在 Amazon EC2 上使用 EMR 或自己的集群。
如果他们(data.seattle.gov)具有相关的查询功能,您可以从您的 hadoop 集群中按需查询数据,并将数据引用作为输入。仅当您在这些查询中进行非常严重的数据减少时,它才可能起作用 - 否则网络带宽将限制性能。

于 2012-08-19T12:42:27.410 回答