关于 HDInsight 作业方法的几个问题。
1) 如何安排 HDInsight 作业?有没有现成的解决方案?例如,如果我的系统会不断收集大量新的输入文件,我们需要在这些文件上运行 map/reduce 作业,那么推荐的实现持续处理的方法是什么?
2)从价格上看,建议在没有作业运行的时候去掉HDInsight集群。据我了解,如果我们决定每天运行这项工作,就没有办法自动化这个过程?这里有什么建议吗?
3)有没有办法确保相同的文件不会被多次处理?你如何解决这个问题?
4)我可能弄错了,但看起来每个 hdinsight 作业都需要一个新的输出存储文件夹来存储减速器结果。合并这些结果以使报告始终适用于整个数据集的最佳做法是什么?