我们希望使用 Azure Data Factory v2 将文件从本地文件服务器增量加载到 Azure Data Lake。
文件应该每天存储在本地文件服务器中,我们必须在白天定期运行 ADFv2 管道,并且只应捕获文件夹中未处理的新文件。
我们希望使用 Azure Data Factory v2 将文件从本地文件服务器增量加载到 Azure Data Lake。
文件应该每天存储在本地文件服务器中,我们必须在白天定期运行 ADFv2 管道,并且只应捕获文件夹中未处理的新文件。
在源数据集中,您可以进行文件过滤。例如,您可以按时间进行(在表达式语言中调用 datetime 函数)或其他定义新文件的方法。 https://docs.microsoft.com/en-us/azure/data-factory/control-flow-expression-language-functions 然后使用预定的触发器,您可以在一天中执行 n 次管道。
我们的建议是将每日摄取的文件集放入 /YYYY/MM/DD 目录中。关于如何使用系统变量(@trigger().scheduledTime)从相应目录读取文件,可以参考这个例子:
https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data