0

我正在尝试将 .tar 文件从 FTP 复制并解压缩到 Azure Data Lake Store。.tar 文件包含 HTML 文件。在复制活动中,在数据集上,我选择压缩类型 GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义活动的情况下执行此类操作?

4

2 回答 2

1

不幸的是,数据工厂不支持解压缩 .tar 文件。支持的 ftp 类型为 GZip、Deflate、BZip2 和 ZipDeflate。(如此处所示:https ://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support )。

一种解决方案可能是将文件保存为一种受支持的格式,或者尝试按照此处说明的自定义活动,尽管我不确定它是用于数据工厂 v1 还是 v2:使用 Azure 数据工厂导入 .tar 文件

希望这有帮助!

于 2018-03-12T13:04:08.150 回答
0

因此,确实没有办法仅使用 ADF 或 ADL Analytics 解压缩 .tar 文件,但是可以选择从 .tar 文件中的每个文件中获取内容并保存为 U-SQL 中的输出。我有一个场景,我需要从 .tar 文件中的 html 文件中获取内容,所以我刚刚创建了 html 提取器,它将获取 .tar 文件中每个 html 文件的流内容并保存在 U-SQL 输出变量中。也许这可以帮助有类似用例的人。我使用 SharpCompress.dll 在 c# 中提取和循环 .tar 文件。

于 2018-03-14T15:15:27.120 回答