虽然您可以将 SQL Server 和 HDInsight 一起用作完整管道的一部分,但出于入门教程的目的,您希望将它们视为两个非常不同的东西。
所指的 Storage 是标准的 Windows Azure Storage 帐户,基于 blob。这些然后形成 HDInsight 群集的后备文件系统。
就使用 PowerShell 而言,它绝对是向 HDInsight 群集提交作业的最佳、最简单的方法。我还建议使用常规 PowerShell 控制台或 PowerShell ISE 来与 HDInsight 一起工作,而不是通过 SSMS 提供的控制台,因为默认情况下 SSMS 版本不会加载所有 Azure 模块。
如果您不喜欢 PowerShell(例如,如果您使用的是 OS X 或 Linux),还有其他方法可以提交作业。您可以使用 WebHCAT 提供的 REST API(文档)。如果您使用的是 Windows,并且更喜欢 C# 而不是 PowerShell,则还可以使用 Microsoft Hadoop SDK 中的 Windows Azure HDInsight 管理客户端来提交作业(在codeplex和nuget上可用)。这些将需要您打破 Visual Studio 并编写一个简短的控制台程序来提交您的工作,因此可能有点繁重,除非您完全使用 C# 流式 Map Reduce,并且已经在那里。
如果您正在使用基于 GUI 的方法向 HDInsight 提交作业,那么您目前运气不佳,但您可能想查看我的团队在Red Gate的工作,这将帮助您提交 Hive 和猪工作。