我处于使用 Azure 数据仓库中的外部表从 Azure 数据湖中读取数据的位置。
这使我们能够使用众所周知的 SQL 从数据湖中读取数据。
但是,另一种选择是使用 Data Lake Analytics 或 HDInsight 的某些变体。
性能方面,我没有看到太大的差异。我假设 Data Warehouse 在后台运行某种形式的分布式查询,转换为 U-SQL(?),那么为什么我们要使用与 U-SQL 语法略有不同的 Data Lake Analytics?
由于 SQL 中也提供了 python 脚本,我觉得我错过了 Data Lake Analytics 的一个关键目的,而不是成本(按批处理作业付费,而不是数据库的恒定运行时间)。