每隔几天,Microsoft 就会(随机?)重新启动 Azure HDInsight 集群,并且在此过程中,对 hive-site.xml 的任何自定义更改(例如添加 JsonSerde)都会在没有任何事先警告的情况下丢失,从而导致 hive来自 Excel/PowerPivot 的查询开始中断。
您应该如何处理这种情况 - 我们是否被迫将数据存储为 CSV 文件?
每隔几天,Microsoft 就会(随机?)重新启动 Azure HDInsight 集群,并且在此过程中,对 hive-site.xml 的任何自定义更改(例如添加 JsonSerde)都会在没有任何事先警告的情况下丢失,从而导致 hive来自 Excel/PowerPivot 的查询开始中断。
您应该如何处理这种情况 - 我们是否被迫将数据存储为 CSV 文件?
为了在操作系统更新或节点重新映像期间保留自定义,您应该考虑使用脚本操作。这是链接:http ://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-customize-cluster/
如果在创建集群时使用自定义配置对象指定 Hive 配置参数,它应该保持不变。此处的链接http://hadoopsdk.codeplex.com/wikipage?title=PowerShell%20Cmdlets%20for%20Cluster%20Management提供了有关使用自定义配置创建集群的更多详细信息。
MSDN 上的这篇博客文章有一个表格,显示了通过不同方法支持哪些自定义,以及使用 PowerShell 或 SDK 创建具有自定义 Hive 配置参数的集群的示例(Powershell 示例中的第 62-64 行):http: //blogs.msdn.com/b/bigdatasupport/archive/2014/04/15/customizing-hdinsight-cluster-provisioning-via-powershell-and-net-sdk.aspx
这是保留这些设置的唯一方法,因为可以为 Azure 服务事件(例如安全更新)重置群集节点,并且在发生这种情况时将配置设置回初始值。