如何使用该"Download File"
组件仅下载新文件或已远程更新的文件?
考虑如下图:
其中File Download
定义为:
我有很多 *.csv 文件${S3_OR_DATA_DIR_LOCATION}
;我每天都加一个)。
如何确保 GoodData 只下载新文件和已更新的文件?会做出选择"Overwrite existing files"
False
吗?还是只会下载新文件而不更新已更新的现有文件?
如何使用该"Download File"
组件仅下载新文件或已远程更新的文件?
考虑如下图:
其中File Download
定义为:
我有很多 *.csv 文件${S3_OR_DATA_DIR_LOCATION}
;我每天都加一个)。
如何确保 GoodData 只下载新文件和已更新的文件?会做出选择"Overwrite existing files"
False
吗?还是只会下载新文件而不更新已更新的现有文件?
文件下载CloudConnect 组件本身不支持仅下载新文件的操作,该文件出现在源文件夹中,因为它没有实现任何先前的状态记忆机制,但由于它具有输入端口,因此可以在 Reformat、一些 Joiner 和 CSV Writer CloudConnect 组件的帮助下,使用File List CloudConnect 组件自己实现这种机制。通过这种方式,您可以确定源文件夹的内容并将其写入纯文本文件中。该机制可以设计为,下一个处理将读取前一次运行的状态文件并确定新文件是什么,然后将新文件列表发送到文件下载 CloudConnect 组件的输入端口.
另一种仅处理新文件的方法比上一篇文章中描述的过程更简单,因此常用,它基于利用源文件夹中的文件夹结构,其中将有一个专用文件夹用于新文件和另一个用于已处理文件的专用文件夹。然后,CloudConnect ETL 过程本身将从其专用源文件夹中读取新文件,ETL 过程的最后阶段将包含文件复制/移动CloudConnect 组件,用于将已处理的新文件从其专用文件夹传输到包含所有已处理过的文件。