HDInsight 将使用来自 HDFS 的内容,或者来自通过 Azure Storage Vault (ASV) 映射到 HDFS 的 blob 存储,它有效地在 blob 存储之上提供了一个 HDFS 层。后者是推荐的方法,因为您可以将大量内容写入 Blob 存储,这可以很好地映射到稍后可由 HDInsight 作业使用的文件系统。这对于日志/跟踪之类的东西非常有用。想象一下,将每小时日志写入特定容器中的单独 blob。然后,您将创建 HDInsight 群集,并将其附加到同一存储帐户。然后,指定输入目录变得非常简单,该目录映射到指定存储容器内的文件,然后就可以使用了。
您还可以将数据存储在 Windows Azure SQL DB(传统命名:“SQL Azure”)中,并使用名为Sqoop的工具将数据直接从 SQL DB 导入 HDFS 进行处理。但是,您将拥有您在问题中提到的 150GB 限制。
没有从 Table Storage 到 HDFS 的内置映射;您需要创建某种类型的转换器来从表存储中读取并写入文本文件以进行处理(但我认为直接写入文本文件会更有效,无需进行批量读/写以准备您的HDInsight 处理)。当然,如果您正在对日志数据执行非 HDInsight 查询,那么最初存储到表存储中,然后在每次启动 HDInsight 作业时提取您需要的特定数据可能确实是有益的。
Azure 门户上有一些HDInsight 文档,提供了有关 HDFS + Azure Storage Vault 的更多详细信息。