我们有一个 Azure 数据工厂,其中包含大约 40 个管道,每个管道都有一个使用 HDInsight 按需链接服务运行配置单元脚本的活动。
从那以后,我们添加了一个自定义元存储,它使用一个 azure SQL 实例作为存储链接服务。我们为实现这一目标而设置的唯一方法是HcatalogLinkedServiceName
在数据工厂 ARM 脚本中。
自从这样做以来,我们注意到活动失败的增加并且我们的性能已经下降(这可能是由于我们之前使用的 Azure SQL 层达到了 100% 的 DTU 使用率。)
活动以失败告终Error in Activity: The request was aborted: The request was canceled..
这在使用自定义元存储时似乎相当一致,并且在使用默认值时似乎不是问题。
是否需要进一步配置我们可能错过的自定义元存储,或者有关我们在此处描述的配置/使用的任何内容,这可能表明为什么我们遇到上述错误的故障显着增加。
HDI OnDemand OS 是 linux,版本是 3.2。
我们也遇到了一些更严重的错误,但我认为这可能是因为我们将 3.3 HDI 集群连接到与 3.2 按需集群相同的元存储。这是本文件建议反对的。
Ensure that the Metastore created for one HDInsight cluster version is not shared across different HDInsight cluster versions. This is due to different Hive versions has different schemas. Example – Hive 1.2 and Hive 2.1 clusters trying to use same Metastore.
这似乎也表明 hive 和 hcatalog 在 3.2 和 3.3 之间存在重大变化。
https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-component-versioning