0

初学者问题。我读了这篇关于 Hadoop/MapReduce 的文章

http://www.amazedsaint.com/2012/06/analyzing-some-big-data-using-c-azure.html

我明白了 hadoop 的概念,什么是 map,什么是 reduce。

对我来说,如果我的应用程序位于 hadoop 集群之上

1)不再需要数据库?

2) 我如何首先从我的 ASP.NET MVC 应用程序中将我的数据放入 hadoop?假设它是 Stackoverflow(用 MVC 编码)。在我发布这个问题之后,这个问题以及标题、正文、标签如何进入 hadoop?

3)在上面的文章中,它收集了有关在 Stakoverflow 上使用的“命名空间”以及它们被使用了多少次的数据。

如果本站stackoverflow想要实时显示mapreducer的结果数据,你是怎么做的呢?

抱歉新手问题。我只是想一次一张地在这里拍一张清晰的照片。

4

1 回答 1

1

1)这将取决于应用程序。很可能您仍然需要用于用户管理等的数据库。

2) 如果您使用的是 Amazon EMR,您将使用.NET API(或其他方式)将输入放入 S3 并以相同的方式获取结果。您还可以通过 API 监控您的 EMR 帐户,非常简单。

3) Hadoop 并不是真正的实时环境,更像是一个批处理系统。您可以通过连续处理传入数据来模拟实时,但它仍然不是真正的实时。

我建议查看Amazon EMR .NET文档并选择一本关于 Hadoop 的好书(例如Hadoop in Practice以了解堆栈和概念以及 Hive(例如Programming Hive

此外,当然,您可以混合环境以使其最擅长;例如,为您的 .NET 应用程序使用 Azure 网站和 SQLAzure,为 hadoop/hive 使用 Amazon EMR。考虑到成本模型,无需将所有东西都停放在一个地方。

希望这可以帮助。

于 2013-05-24T23:52:22.897 回答