我正在考虑开发一个框架来简化在Windows Azure的 .NET 云环境中运行的分布式计算。
Azure 目前(很可能在发布时)完全不适合在云中简单地运行分布式查询(详细信息)。对我来说很简单,比如DryadLINQ,您可以在其中编写查询:
var results = from c in collection
where IsLegal(c.Key)
select new
{
Key = Hash(c.Key),
Result = RunModel(c.Value);
};
并让它在集群中的多台机器上远程执行。无需担心部署、存储或配置。
您可以建议查看哪些资源、论文或开源项目以获取有关该主题的更多信息(尤其是调度和 DAG 优化)?
到目前为止,我一直在研究 Hadoop(由 Amazon Elastic Map Reduce 使用)和 DryadLINQ。显然,这包括谷歌搜索。