1

我目前有一个由简单的复制活动组成的管道,它从第三方的 FTP 服务器获取压缩文件,解压缩文件并将它们复制到 blob 存储容器。

吞吐量非常低(7 KB/s),简单地复制文件而不解压缩不会造成任何问题(700 KB/s,这与使用 FileZilla 的 FTP 服务器的常规下载速度一致)。

对于数据工厂团队,运行 ID 为:825e15a9-aba6-47ed-8656-88c9b6bc3754

以下数据集中的一些名称已被修改。

输入数据集: { "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "3PPFtpServer", "type": "LinkedServiceReference" }, "type": "FileShare", "typeProperties": { "compression": { "type": "ZipDeflate", "level": "Fastest" }, "fileName": "sample_file.zip", "folderPath": "/dir1/dir2/" } }, "type": "Microsoft.DataFactory/factories/datasets" }

输出数据集: { "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "type": "AzureBlob", "typeProperties": { "fileName": "", "folderPath": "test-output/" } }, "type": "Microsoft.DataFactory/factories/datasets" }

我在调整减压方面有什么问题吗?

4

1 回答 1

0

您是否使用自托管集成运行时访问 ftp 服务器?还是 Azure IR?

如果是自托管的,可能是您的处理能力不足以更快地解压缩和上传文件,因此最好的方案是上传压缩文件,然后在 Azure 存储中解压缩,以便解压缩云中的文件。您将有 2 个复制活动和 3 个数据集:

活动 1:将压缩文件从 ftp 复制到 Azure 存储。数据集将与您现在一样,但输出数据集将使用与输入相同的压缩类型。活动 2:将解压后的文件从 Azure 存储复制到 Azure 存储(当然是另一个文件夹)。输入数据集将与 Activity1 的输出相同,输出将是您在问题中显示的数据集。

希望这有帮助!

于 2018-06-17T19:53:41.757 回答