在我有时间获得摄取策略和流程设置之前,我开始收集最终将通过流分析工作的数据。现在我坐在一个 Azure blob 存储容器上,其中包含超过 500,000 个 blob(无文件夹组织),另一个包含 300,000 个,其他一些包含 10,000 - 90,000 个。
生产收集过程现在将这些 blob 以YYYY-MM-DD/HH
格式写入不同的容器,但这只是向前发展的好方法。我拥有的这些存档数据对于进入我的系统至关重要,我想稍微修改一下现有生产 ASA 作业的输入,这样我就可以在查询、函数和其他依赖项中利用相同的逻辑。
我知道 ASA 不喜欢超过几百 / 千的批次,所以我正在尝试寻找一种方法来暂存我的数据,以便在 ASA 下正常工作。这将是一次运行...
一个想法是编写一个脚本来查看每个 blob,查看 blob 中的时间戳并重新创建YYYY-MM-DD/HH
文件夹设置,但根据我的经验,当 blob 的 lastModified 时间与它的文件夹不匹配时,ASA 作业将失败在...
任何建议如何解决这个问题?
编辑:未能提及(1)这些容器中没有文件夹......所有 blob 都位于容器的根目录中,并且(2)我LastModifiedTime
的 blob 不再有用或有意义。后者的原因是这些 blob 是从多个其他容器中收集的,并使用 Azure CLIcopy-batch
命令合并在一起。