HDInsight是 Microsoft 为在 Azure 中使用而维护的 Hadoop 发行版。您可以大致将其与Amazon Elastic MapReduce进行比较。它们都旨在成为几乎没有管理开销的托管 Hadoop 服务。
适用于 Windows的Hortonworks 数据平台包含 Hortonworks 和 Microsoft 合作进行的开源更改,以使 Hadoop 在 Windows 上运行良好。HDP 不是 HDInsight。
简而言之 - 如果您想在 Windows 环境中运行 Hadoop,则不需要使用 HDInsight。
虽然我不能直接谈论使用 HDInsight 以及在 SQL Server 之间来回移动数据,但我已经使用 SQL Server、Hadoop 和 Elastic MapReduce 实现了一个数据处理解决方案。除非有一些数据质量问题和BULK INSERT
怪异,这个过程是无痛的。
最后,您问“我们真的想在 Windows 服务器上运行 Hadoop 大小的数据集吗?” - Windows 性能良好,并且拥有可靠的工具。我一直对在 Windows 上运行 Hadoop 和其他 Java 平台软件持怀疑态度,因为遗留 Java I/O 问题和缺乏社区支持,而不是因为任何性能问题。
Windows 公司会发现迁移到 Hadoop 的最大问题是,当问题变成 Hadoop + Windows 问题时,社区论坛和渠道的支持将有限。人们很容易举手说“不,不帮忙,没有 Windows”。随着时间的推移和采用,这个问题就会消失。此外,没有什么说你必须在你开始的同一个平台上完成。您可以轻松地在 Windows 上使用 HDP 进行部署,并在以后迁移到 Linux 上的 HDP。
我为 DBA 整理了一些 SQL Server 和 Hadoop 基础知识,它们应该会有所帮助。