azure - 仅将最新文件数据加载到 Azure SQL 数据仓库

Question

步骤#1：我们应该将 CSV 文件从本地文件服务器复制到 Azure Blob 存储（比如 - Blob 存储中的“暂存”容器）。步骤#2：应用 Polybase，我们将这些文件数据加载到 Azure SQL 数据仓库。

每次从本地文件服务器加载到 Azure Blob 时，我们都会维护相同的文件名（与暂存数据库表同步）。我们在将数据从 blob 存储加载到 Azure Datawarehouse 时面临挑战，因为在每个批处理周期执行期间（使用 ADF 管道运行），我们必须处理和加载从暂存到 Azure SQL DWH 的所有文件。我们每天运行 4 个批次循环。对于每个周期，我们都在处理最新文件以及已经处理的旧文件。有什么办法，我们只能在本地文件服务器上为每个单独的批处理作业加载当前可用的文件。（我的意思是，我们会将这些文件加载到 staging 中，并且只将这些文件处理到 sql dwh 而不接触其他文件）。

score 0 · Accepted Answer

我也发生了同样的问题。我所做的是在 CSV 文件中添加一列 ExtractDate，然后仅从 PolyBase 中选择那些记录作为我想要的 ExtractDate。目前 PolyBase 不支持从 blob 检测增量文件。所以，这个解决方法对我有用。

azure - 仅将最新文件数据加载到 Azure SQL 数据仓库

1 回答 1

Related

Reference