我正在查看 data.seattle.gov 数据集,我想知道如何将所有这些大型原始数据发送到 hadoop 集群。我在 azure 上使用 hadoop。
问问题
73 次
2 回答
0
在 Windows Azure 中,您可以将数据集(非结构化数据等)放在 Windows Azure 存储中,然后从 Hadoop 集群访问它
查看博客文章:Windows Azure 上的 Apache Hadoop:从 Hadoop 集群连接到 Windows Azure 存储:
您还可以从 Azure 市场获取数据,例如政府数据集等。
于 2012-08-18T23:58:25.943 回答
0
看起来 data.seattle.gov 是一个独立的数据服务,而不是建立在公共云之上。他们有自己的 Restful API 用于数据访问。
其中我认为最简单的方法是将感兴趣的数据下载到您的 hadoop 集群或 S3,然后在 Amazon EC2 上使用 EMR 或自己的集群。
如果他们(data.seattle.gov)具有相关的查询功能,您可以从您的 hadoop 集群中按需查询数据,并将数据引用作为输入。仅当您在这些查询中进行非常严重的数据减少时,它才可能起作用 - 否则网络带宽将限制性能。
于 2012-08-19T12:42:27.410 回答