0

我有一个任务:加快倒排索引的当前实施。在我看来,最好的方法是在云中运行它:

  1. 将输入文本划分为几个部分(或者只是抓取几个不同的文本文件)
  2. 向节点发送文本
  3. 针对不同的输入数据在每个节点上运行算法
  4. 收集结果并合并它们

我的问题是:实现它的最简单方法是什么?

我目前的想法是:

  • 具有工作角色的 Windows Azure - 是否可以将不同的数据发送到节点并稍后合并它们?
  • Windows Azure 和 HPC 调度程序 - 对于这样的任务来说是不是太强大了?我害怕配置和成本(新节点 = 新工人角色?)
  • 使用任何其他云,例如 Amazon 或 Google - 我想用 c# 编写代码,并且我熟悉 Microsoft 技术,所以我有点害怕它们

请给我任何建议你将如何实现这个目标,我是云计算的新手(虽然我有一些基础知识,比如 mpi、soa、cuda、azure 基础知识)

4

1 回答 1

1

这是MapReduce的情况。

事实上,Hadoop是出于Nutch(它做倒排索引)的需要而创建的

您可以使用:

a)亚马逊的 Elastic MapReduce

或者

b)在 Azure 上注册 HDInsights

还有其他提供商(picloud是我想到的)

于 2013-01-11T23:31:57.237 回答